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我 写本 书 的 初 囊 是 将 自己 在 企业 工作 中 应 用 的 技术 归纳 总 结 ， 系 统 地 将 大 数据 处 理 相关 技术 融合 在 一 起 ， 给 已 经 从 事 大 数据 相关 技术 研发 工作 的 朋友 ， 或 是 准备 从 其 他 行业 转行 进入 大 数据 领域 学 习 相 
关 技 术 的 朋友 提供 一 份 参考 资料 。 希 望 本 书 能 够 帮助 更 多 从 事 大 数据 相关 工作 的 人 ， 也 希望 通过 本 书 结识 更 多 热爱 大 数据 的 朋友 。 
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目前 ， 大 数据 已 不 只 停留 在 概念 阶段 ， 而 是 在 各 领域 成 功 落地 ， 并 取得 了 丰硕 的 成 果 。 大 数据 已 经 渗透 到 生活 中 的 各 个 方面 ， 距 离 我 们 最 近 且 与 我 们 生活 息息相关 的 大 数据 项 目 有 交通 大 数据 、 医 疗 大 
数据 、 金 融 大 数据 、 社 交 媒 体 大 数据 、 互 联网 大 数据 等 。 如 此 多 的 大 数据 项 目 能 够 成 功 落地 ， 关 键 原 因 在 于 数据 来 源 的 多 样 化 ， 数 据 量 的 爆发 式 增长 ， 新 兴 技 术 的 快速 发 展 ， 以 及 市 场 创 新 需求 的 不 断 增 


多 ， 这 为 各 种 大 数据 项 目 提 供 了 庞大 的 数据 源 ， 通 过 多 种 技术 的 综合 应 用 ， 可 不 断 挖掘 出 大 数据 背后 的 社会 价值 和 商业 价值 。 












































随 着 开源 社区 的 不 断 发 展 ， 越 来 越 多 的 优秀 项 目 被 开源 ， 以 处 理 各 种 大 数据 场景 下 的 问题 和 挑战 。 作 为 目前 大 数据 生态 系统 内 的 早期 开源 项 目 ，Hadoop 在 廉价 机 器 上 实现 了 分 布 式 数据 存储 和 高 性 能 
分 布 式 计算 ， 大 大 降低 了 数据 存储 和 计算 成 本 。Hadoop 提 供 的 分 布 式 存储 系统 HDFS、 大 数据 集 并 行 计算 编程 模型 MapReduce、 资 源 调度 框架 YARN 已 经 被 广泛 应 用 ， 为 大 数据 生态 系统 的 发 展 黄 定 了 坚 
实 的 基础 。 如 今 ，Hadoop 大 数据 生态 圈 发 展 已 经 非常 全 面 ， 涉 及 领域 众多 ， 在 大 数据 处 理 系统 中 常用 的 技术 框架 包括 数据 采集 、 数 据 存储 、 数 据 分 析 、 数 据 挖 气 、 批 处 理 、 实 时 流 计 算 、 数 据 可 视 化 、 监 
控 预 警 、 信 息 安全 等 。 下 图 展示 了 大 数据 生态 系统 内 比较 流行 并 且 已 经 在 生产 环境 验证 过 的 开源 技术 。 

































































(1) Spark 












































Spark 是 由 加 州 大 学 伯克利 分 校 AMP 实 验 室 开 源 的 分 布 式 大 规模 数据 处 理 通 用 引擎 ， 具 有 高 吞吐 、 低 延 时 、 通 用 易 扩展 、 高 容错 等 特点 。Spark 内 部 提供 了 丰富 的 开发 库 ， 集 成 了 数据 分 析 引 擎 Spark 
SQL、 图 计算 框架 GraphX、 机 器 学 习 库 MLlib、 流 计算 引擎 Spark Streaming。Spark 在 函数 式 编程 语言 Scala 中 实现 ， 提 供 了 丰富 的 开发 API， 支 持 Scala、Java、Python、R 等 多 种 开发 语言 。 同 时 ， 它 提 
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供 了 多 种 运行 模式 ， 既 可 以 采用 独立 部 署 的 方式 运行 ， 也 可 以 依托 Hadoop YARN、Apache Mesos 等 资源 管理 器 调度 任务 运行 。 目 前 ，Spark 已 经 在 金融 、 交 通 、 医 疗 、 气 象 等 多 种 领域 中 广泛 使 用 。 


Oozie I Jekins 




















大 数据 生态 系统 中 的 开源 技术 


(2) Druid 















































Druid 是 由 美国 MetaMarkets 公 司 创建 并 开源 的 分 布 式 提供 海量 时 序数 据 存储 、 支 持 实时 多 维 数据 分 析 的 OLAP 系 统 ， 主 要 应 用 于 广告 数据 分 析 、 网 络 系统 监控 等 场景 。Druid 具 有 高 吞吐 、 易 扩展 、 高 




















(3) Flume 








Flume 是 由 Cloudera 公 司 开发 的 分 布 式 、 高 可 用 的 日 志 收集 系统 ， 是 Hadoop 生 态 圈 内 的 关键 组 件 之 一 ， 目 前 已 开源 给 Apache。Flume 的 原始 版 本 为 Flume-OG， 经 过 对 整体 架构 的 重新 设计 ， 现 已 改 
名 为 Flume-NG。Flume 发 展 到 现在 已 经 不 局 限于 日 志 收 集 ， 还 可 以 通过 简单 的 配置 收集 不 同 数据 源 的 海量 数据 并 将 数据 准确 高 效 地 传输 到 不 同 的 中 心 存储 。 目 前 Flume 可 对 接 的 主流 大 数据 框架 有 
Hadoop、Kafka、ElasticSearch、Hive、HBase 等 。 在 使 用 Flume 的 过 程 中 ， 通 过 配置 文件 就 可 以 实现 整个 数据 收集 过 程 的 负载 均衡 和 故障 转移 ， 而 不 需要 修改 Flume 的 任何 代码 。 得 益 于 优秀 的 框架 设 
计 ，Flume 通 过 可 扩展 、 插 件 化 、 组 合式 、 高 可 用 、 高 容错 的 设计 模式 ， 为 用 户 提供 了 简单 、 高 效 、 准 确 的 轻 量 化 大 数据 采集 工具 。 






































































































































(4) Kafka 




















发 接口 丰富 。 目 前 ， 各 大 互联 网 公司 已 经 在 生产 环境 中 广泛 使 用 ， 而 且 已 经 有 很 多 分 布 式 








洪 
算 


Kafka 是 由 Linkedln 开 源 的 分 布 式 消息 队列 ， 能 够 轻松 实现 高 吞吐 、 可 扩展 、 高 可 用 ， 并 且 部 署 简单 | 
处 理 系统 支持 使 用 Kafka， 比 如 Spark、Strom、Druid、Flume 等 。 


























(5) InfluxDB 





InfluxDB 是 一 款 开源 分 布 式 时 序数 据 库 ， 非 常 适 合 存储 监控 系统 收集 的 指标 数据 。 时 序数 据 库 顾名思义 就 是 按照 时 间 顺 序 存储 指标 数据 ， 即 监控 系统 的 场景 大 部 分 是 按照 时 间 顺 序 存储 各 项 指标 数据 ， 
过 期 时 间 太 长 的 指标 可 能 将 不 会 再 关注 ， 所 以 为 了 提高 数据 库 的 存储 率 ， 提 高 查询 性 能 ， 需 要 定期 删除 过 期 指标 。InfluxDB 的 诸多 特性 非常 适合 监控 系统 的 使 用 场景 。 












































本 书 将 详细 介绍 上 述 技术 的 原理 ， 通 过 实践 演示 每 种 技术 的 实际 应 用 场景 。 希 望 通过 理论 与 实践 相 结 合 的 方式 使 内 容 更 通俗 易 懂 ， 帮 助 读者 根据 实际 的 业务 场景 选择 合适 的 技术 方案 ， 相 信 大 数据 在 未 
来 的 发 展 中 还 会 创造 更 多 的 价值 。 














本 书 分 三 部 分 展开 介绍 : 




















第 一 部 分 (第 1 章 ) 主要 介绍 了 企业 大 数据 系统 的 前 期 准备 工作 ， 包 括 如 何 构建 企业 大 数据 处 理 系统 的 软件 环境 和 集 和 





环境 。 

















第 二 部 分 (第 2 ~ 7 章 ) 首先 介绍 了 Spark 的 基本 原理 ，Spark 2.0 版 本 的 Spark SQL、Structured Streaming 原 理 和 使 








过 程 、 数 据 报 入 过 程 ， 以 及 在 查询 过 程 中 如 何 实现 Druid 查 询 APl; 接着 介绍 了 日 志 收集 系统 Flume 的 基本 架构 和 关键 组 件 ， 








方法 ， 以 及 Spark 的 多 种 优化 方式 ; 然后 ， 介 绍 了 Druid 的 基本 原理 、 集 群 的 搭建 
以 及 分 层 日 志 收集 架构 的 设计 与 实践 ， 最 后 介绍 了 分 布 式 消息 队列 Kafka 的 基本 









































架构 和 集群 搭建 过 程 ， 以 及 使 用 Java 语 言 实现 客户 端 API 的 详细 过 程 。 












































第 三 部 分 (第 8 ~ 9 章 ) 主要 介绍 了 企业 大 数据 处 理 的 两 个 实际 应 用 案例 ， 分 别 是 基于 Druid 构 建 多 维 数据 分 析 平 台 和 基于 JMX 指 标的 监控 系统 。 








目标 读者 











本 书 适合 从 事 大 数据 及 相关 工作 的 工程 师 阅 读 ， 也 适合 准备 进入 大 数据 领域 的 大 数据 爱好 者 学 习 、 参 考 。 








读者 反馈 


本 书 是 在 业余 时 间 完成 的 ， 由 于 水 平 有 限 ， 编 写 时 间 仓 促 ， 书 中 可 能 会 出 现 介绍 不 够 详细 或 者 有 错误 的 地 方 ， 敬 请 读者 谅解 。 如 果 遇 到 任何 问题 或 者 寻求 技术 交流 都 可 以 通过 如 下 联系 方式 与 笔者 进行 


沟通 。 
大 数据 爱好 者 交流 QQ 群 : 124154694 


个 人 邮箱 : xiaoguanyu java@163.com 


致 澳 











感谢 在 本 书 的 写作 过 程 中 帮助 过 笔者 的 朋友 、 同 事 、 老 师 ， 感 谢 你 们 一 次 又 一 次 的 帮助 和 支持 ! 




















感谢 机 械 工业 出 版 社 杨 福 川 老师 ， 本 书 从 2016 年 6 月 份 开始 筹划 ， 确 定 了 基本 的 框架 ， 虽 然 由 于 笔者 个 人 原因 导致 写作 速度 缓慢 ， 但 是 杨 老 师 一 直 积 极 推动 本 书 的 出 版 ， 并 且 不 断 指导 笔者 写作 ， 感 谢 
杨 老师 给 予 的 理解 、 帮 助 与 支持 。 感 谢 机 械 工业 出 版 社 编辑 李 艺 老师 ， 李 艺 老师 用 严谨 的 工作 态度 为 本 书 做 了 专业 的 编辑 工作 ， 并 且 耐 心 指导 笔者 完成 了 本 书 的 编写 工作 。 
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第 一 部 分 “准备 工作 


第 1 章 ”基础 环境 准备 


第 1 章 ”基础 环境 准备 


1.1 软件 环境 准备 


软件 版 本 选择 : 
操作 系统 : CentOS 6.6 版 本 ; JDK: 1.7 版 本 ; Maven: 3.2 版 本 ; Scala: 2.10 版 本 。 


所 有 软件 安装 目录 : /data/soft。 





确定 了 软件 版 本 后 ， 我 们 将 具体 介绍 软件 的 安装 ， 本 节 主 要 介绍 基础 的 软件 安装 方式 。 





1JDK 安 装 





JDK 是 Java Development Kit 的 简称 ， 为 Java 语 言 开发 的 程序 提供 开发 工具 包 和 运行 环境 。JDK 安 装 的 步骤 如 下 : 
(1) 下 载 IDK 二 进 制 安装 包 


wget http://download.oracle.com/otn-pub/java/jdk/7u15-b03/jdk-7u15-linux-x64.tar.gz 


鼓励 我 。 感 澳 妻 子 为 家 庭 和 工作 的 付出 。 家 人 的 陪伴 与 支持 是 笔者 不 断 学 习 、 努 





(2) 解压 安装 





tar -zxvf jdk-7u15-linux-x64.tar.gz 


(3) 创建 软 连接 


软 连接 相当 于 快捷 方式 ， 便 于 后 续 版 本 更 新 升级 。 





1s -s /data/soft/jdk-7u15-linux-x64 /usr/local/jdk 


(4) 配置 环境 变量 





Vim /etc/profile 

export JAVA HOME=/usr/local/jdk 

export JRE HOME=$JAVA HOME/jre 

exportCLASSPATH=. : $JAVA HOME/1ib/dt.jar:$JAVA HOME/1ib/tools.jar 
:$IJRE HOME/1ib:$CLASSPATH 

export PATH=$PATH: $JAVA HOME/bin 








刷新 环境 变量 使 其 生效 : source/etc/profile 
(5) 验证 安装 是 否 成 功 


查看 JDK 版 本 命令 : java-version 


2.Maven 安 装 


























Maven 是 Apache 开 源 的 一 个 目前 比较 流行 的 项 目 管理 和 整合 工具 ， 能 够 自动 完成 项 目的 构建 ， 并 根据 配置 文件 自动 下 载 依赖 组 件 ， 提 供 代 码 编译 、 打 包 、 发 布 等 功能 。 下 面 介绍 Maven 的 详细 安装 过 
程 。 























Maven 安 装 的 步骤 如 下 : 


(1) 下 载 Maven 二 进 制 安装 包 





wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz 





(2) 解压 安装 





tar -zxvf apache-maven-3.3.9-bin.tar.gz 





(3) 创建 软 连接 


软 连接 相当 于 快捷 方式 ， 便 于 后 续 版 本 更 新 升级 。 





ls -s/data/soft/apache-maven-3.3.9-bin /usr/local/maven 





(4) 配置 环境 变量 





vim /etc/profile 
export M2 HOME=/usr/local/maven 
export PATH=$PATH: S$JAVA HOME/bin:$M2 HOM/bin 








刷新 环境 变量 使 其 生效 : source/etc/profile 
(5) 验证 安装 是 否 成 功 


查看 Maven 版 本 命令 : mvn-version 


3.Scala 安 装 





Scala 编 程 语言 是 一 种 面向 对 象 的 函数 式 编程 语言 ， 充 分 展现 了 函数 式 编程 语言 简约 、 高 效 的 特点 ， 在 程序 开发 的 过 程 中 可 以 引入 Java 语 言 ， 可 扩展 性 强 。 由 于 Scala 具 有 很 多 优秀 的 特性 ， 越 来 越 多 的 
开源 项 目 使 用 Scala 语 言 开 发 ， 比 如 Spark、Kafka 等 。 下 面 详 细 介 绍 Scala 开 发 环境 的 安装 过 程 。 


Scala 安 装 的 步骤 如 下 : 


(1) 下 载 J/DK 二 进 制 安装 包 





wget http://downloads.lightbend.com/scala/2.10.6/scala-2.10.6.tgz 





(2) 解压 安装 





tar -zxvf scala-2.10.6.tgz 





(3) 创建 软 连接 


软 连接 相当 于 快捷 方式 ， 便 于 后 续 版 本 更 新 升级 。 





ls -s /data/soft/scala-2.10.6 /usr/local/scala 





(4) 配置 环境 变量 





vim /etc/profile 
export SCALA HOME=/usr/local/scala 
export PATH=$PATH: $JAVA HOME/bin:$M2 HOM/bin:$SCALA HOME/bin 








刷新 环境 变量 使 其 生效 : source/etc/profile 
(5) 验证 安装 是 否 成 功 


查看 scala 版 本 命令 : scala-version 


第 1 章 “基础 环境 准备 


1.1 软件 环境 准备 


软件 版 本 选择 : 
操作 系统 : CentOS 6.6 版 本 ; JDK: 1.7 版 本 ; Maven: 3.2 版 本 ; Scala: 2.10 版 本 。 


所 有 软件 安装 目录 : /data/soft。 








确定 了 软件 版 本 后 ， 我 们 将 具体 介绍 软件 的 安装 ， 本 节 主 要 介绍 基础 的 软件 安装 方式 。 
1JDK 安 装 


JDK 是 Java Development Kit 的 简称 ， 为 java 语言 开发 的 程序 提供 开发 工具 包 和 运行 环境 。JDK 安 装 的 步骤 如 下 : 


(1) 下 载 JDK 二 进 制 安装 包 





wget http://download.oracle.com/otn-pub/java/jdk/7u15-b03/jdk-7u15-linux-x64.tar.gz 





(2) 解压 安装 





tar -zxvf jdk-7u15-linux-x64.tar.gz 





(3) 创建 软 连接 


软 连接 相当 于 快捷 方式 ， 便 于 后 续 版 本 更 新 升级 。 





1s -s /data/soft/jdk-7u15-linux-x64 /usr/local/jdk 





(4) 配置 环境 变量 





Vim /etc/profile 

export JAVA HOME=/usr/local/jdk 

export JRE HOME=$JAVA HOME/jre 

exportCLASSPATH=. : $JAVA HOME/1lib/dt.jar:$JAVA HOME/1lib/tools.jar 
:SURE HOME/1ib:$CLASSPATH 

export PATH=$PATH: $JAVA HOME/bin 








刷新 环境 变量 使 其 生效 : source/etc/profile 
(5) 验证 安装 是 否 成 功 


查看 JDK 版 本 命令 : java-version 


2.Maven 安 装 




















Maven 是 Apache 开 源 的 一 个 目前 比较 流行 的 项 目 管理 和 整合 工具 ， 能 够 自动 完成 项 目的 构建 ， 并 根据 配置 文件 自动 下 载 依赖 组 件 ， 提 供 代 码 编译 、 打 包 、 发 布 等 功能 。 下 面 介绍 Maven 的 详细 安装 过 
程 。 





























Maven 安 装 的 步骤 如 下 : 


(1) 下 载 Maven 二 进 制 安装 包 





wget http://mirror.bit.edu.cn/apache/maven/maven-3/3.3.9/binaries/apache-maven-3.3.9-bin.tar.gz 





(2) 解压 安装 





tar -zxvf apache-maven-3.3.9-bin.tar.gz 





(3) 创建 软 连接 


软 连接 相当 于 快捷 方式 ， 便 于 后 续 版 本 更 新 升级 。 





ls -s/data/soft/apache-maven-3.3.9-bin /usr/local/maven 





(4) 配置 环境 变量 





vim /etc/profile 
export M2 HOME=/usr/local/maven 
export PATH=$PATH: $JAVA HOME/bin:$M2 HOM/bin 








刷新 环境 变量 使 其 生效 : source/etc/profile 
(5) 验证 安装 是 否 成 功 


查看 Maven 版 本 命令 : mvn-version 


3.Scala 安 装 




















Scala 编 程 语言 是 一 种 面向 对 象 的 函数 式 编程 语言 ， 充 分 展现 了 函数 式 编程 语言 简约 、 高 效 的 特点 ， 在 程序 开发 的 过 程 中 可 以 引入 Java 语 言 ， 可 扩展 性 强 。 由 于 Scala 具 有 很 多 优秀 的 特性 ， 越 来 越 多 的 
开源 项 目 使 用 Scala 语 言 开发 ， 比 如 Spark、Kafka 等 。 下 面 详细 介绍 Scala 开 发 环境 的 安装 过 程 。 

















Scala 安 装 的 步骤 如 下 : 


(1) 下 载 JDK 二 进 制 安装 包 





wget http://downloads.lightbend.com/scala/2.10.6/scala-2.10.6.tgz 





(2) 解压 安装 





tar -zxvf scala-2.10.6.tgz 





(3) 创建 软 连接 


软 连接 相当 于 快捷 方式 ， 便 于 后 续 版 本 更 新 升级 。 





ls -s /data/soft/scala-2.10.6 /usr/local/scala 





(4) 配置 环境 变量 





vim /etc/profile 
export SCALA HOME=/usr/local/scala 
export PRTH=SPRTH: $JAVA HOME/bin:$M2 HOM/bin:$SCALA HOME/bin 








刷新 环境 变量 使 其 生效 : source/etc/profile 
(5) 验证 安装 是 否 成 功 


查看 scala 版 本 命令 : scala-version 


1.2 ”集群 环境 准备 


1.2.1 Zookeeper 集 群 部 署 























Zookeeper 是 大 数据 系统 中 常用 的 分 布 式 框架 ， 主 要 用 于 公共 配置 管理 、 集 群 资 源 一 致 性 管理 、 状 态 管理 、 部 分 分 布 式 系统 Leader 选 举 等 ， 下 面 通 过 完全 分 布 式 搭建 方式 进行 介绍 。 





























1. 集 群 规划 








由 于 Zookeeper 采 用 FastLeaderElection 算 法 选举 Leader， 集 群 中 过 半 的 机 器 正常 运行 才能 够 成 功 选举 Leader， 为 保证 集群 正常 运行 ， 集 群 部 署 的 节点 数 为 奇数 个 ， 最 少 节点 个 数 为 3， 生 产 环境 建议 
部 署 5 个 以 上 的 奇数 个 节点 ， 因 为 3 个 实例 其 中 只 要 有 一 个 实例 不 可 用 ， 整 个 Zookeeper 集 群 将 无 法 成 功 选举 ， 仍 然 不 可 以 提供 服务 。 


























2. 部 署 过 程 
本 例 将 以 三 个 节点 的 部 署 为 例 ， 分 别 在 192.168.1.1、192.168.1.2、192.168.1.3 三 台 服 务 器 部 署 一 个 Zookeeper 实 例 。 详 细部 署 过 程 如 下 : 


(1) 下 载 安装 包 并 解压 





wget http://apache.fayea.com/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz 











解压 到 /data/soft 目 录 下 : 

















tar -zxvf http://apache.fayea.com/zookeeper/zookeeper-3.4.6/zookeeper-3.4.6.tar.gz 
-C /data/soft 





(2) 创建 软 连接 


创建 软 连 接 便于 以 后 升级 版 本 ， 方 便 统一 管理 。 





1s -s /data/soft/zookeeper-3.4.6. /usr/local/zookeeper 





(3) 设置 环境 变量 





Vim /etc/profile 

export 200KEEPER HOME=/usr/local/zookeeper 

export PATH=$PATH: $JAVA HOME/bin:$M2 HOM/bin:$SCALA HOME/bin 
: $2ZO00KEEPER HOME/bin 国 








刷新 环境 变量 使 其 生效 : Source/etc/profile 
(4) 配置 
进入 到 Zookeeper 安 装 目录 : cd/usr/local/zookeeper 


拷贝 一 份 conf 目 录 下 的 配置 文件 ， 重 命名 为 zoo.cfg: cp./conf/zoo_sample.cfg./conf/zoo.cfg 





编辑 配置 文件 设置 关键 参数 : 





tickTime=2000 

initLimit=5 

syncLimit=3 
dataDir=/data/zookeeper/data 
dataLogDir=/usr/local/zookeeper/logs 
clientPort=2181 
server.1=192.168.1.1:2888:3888 
server.2=192.168.1.2:2888:3888 
server.3=192.168.1.3:2888:3888 





关键 参数 说 明 : 


-tickTime: Zookeeper 中 的 基础 参考 时 间 ， 所 有 与 时 间 相关 的 设置 都 为 tickTime 时 间 的 整数 倍 ， 单 位 是 毫秒 。 

-initLimit: Zookeeper Leader 与 Follower 初 始 连 接 时 ，Follower 需 要 从 Leader 同 步 最 新 数据 ， 该 值 表 示 Follower 同 步 数据 的 最 大 超时 时 间 ， 一 般 为 整数 ， 表 示 是 tickTime 的 整数 倍 时 间 。 
“syncLimit: Leader 和 Follower 之 间 心 跳 检 测 的 最 大 超时 时 间 ， 超 过 这 个 时 间 则 认为 Follower 已 经 下 线 。 该 参数 值 为 整数 ， 表 示 是 tickTime 的 整数 倍 时 间 。 

dataDir: Zookeeper 持 久 化 数据 目录 ， 建 议 与 安装 路 径 不 在 同一 个 路 径 下 。 

:dataLogDir: 日 志文 件 目录 。 

“clientPort: 监听 客户 端 连 接 的 端口 号 ， 默 认 值 为 2181。 

“server .X=A:B:C。 其 中 x 是 一 个 数字 ， 表 示 这 是 第 几 号 server; A 是 该 server 所 在 的 TP 地 址 ，B 配 置 该 server 和 集群 中 的 leader 交 换 消息 所 使 用 的 端口 ，C 配 置 选 举 leader 时 所 使 用 的 端口 。 


(5) 创建 myid 文 件 











在 配置 参数 dataDir 对 应 的 路 径 下 新 建 myid 文 件 ， 写 入 单独 的 一 个 数字 ， 表 示 集群 中 该 实例 的 编号 ， 该 值 在 集群 中 是 唯一 值 ， 不 可 以 重复 ， 数 字 必 须 和 zoo.cfg 配 置 文件 中 的 server.X 中 的 X 一 一 对 应 。 


(6) 启动 Zookeeper 





bin/zkServer.sh start 





(7) 验证 安装 是 否 成 功 





bin/zkServer.sh status (一 个 leader， 两 个 follower) 


或 者 在 Zookeeper 安 装 的 任何 一 个 节点 执行 客户 端 连 接 命令 : 





bin/zkCli.sh -server 192.168.1.1:2181 





1.2.2 ”Hadoop 部 署 


1.Hadoop 简 介 
































Apache Hadoop 是 由 著名 的 Apache 基 金 会 开源 的 分 布 式 存储 计算 系统 ， 能 够 在 廉价 的 硬件 上 轻松 实现 高 可 靠 、 高 扩展 、 高 性 能 、 高 容错 等 特性 。 通 过 增加 机 器 即 可 直线 增加 集群 的 存储 和 计算 能 
Hadoop 在 大 规模 分 布 式 系统 中 起 着 重要 的 作用 ， 目 前 已 经 形成 一 套 完整 的 Hadoop 生 态 系统 ， 并 且 在 不 断 发 展 扩大 。 随 着 Hadoop 生 态 系统 的 不 断 发 展 ，Hadoop 已 应 用 到 互联 网 、 大 数据 交通 、 智 能 
疗 、 气 象 监 测 、 金 融 服 务 、 人 工 智能 等 众多 领域 。 










































































HDFS (Hadoop Distributed File System，Hadoop 分 布 式 文件 系统 ) : 通过 对 文件 分 块 多 备份 分 布 式 存储 的 方式 保证 数据 具有 高 效 的 容错 能 力 ， 并 且 有 效 提高 数据 的 吞吐 量 。 



























































MapReduce: 应 用 于 规模 分 布 式 计算 的 编程 模型 ， 该 模型 包含 Map 和 Reduce 两 种 编程 原 语 。Map 阶 段 常用 于 接 入 数据 源 ， 数 据 划分 、 过 滤 、 整 理 等 操作 。Reduce 阶 段 常用 于 接收 Map 阶 段 的 数据 ， 
合计 算 ， 持久 化 结果 数据 。 


























YARN : 作业 调度 和 集群 资源 管理 框架 。 目 前 已 经 有 很 多 开源 项 目 部 署 到 YARN 上 运行 ， 将 YARN 作 为 统一 的 作业 调度 和 资源 管理 框架 ， 如 Spark、HBase、Tez 等 。 


2.Hadoop 集 群 部 署 





本 节 主 要 介绍 Hadoop2.6.4 版 本 的 Hadoop 集 群 部 署 。 


1. 集 群 规划 





























为 保证 集群 的 高 可 用 能 力 ，NameNode 和 ResourceManager 都 采用 HA 部 署 方式 ， 各 组 件 详细 分 布 情况 如 表 1-1 所 示 。 











表 1-1 Hadoop 集 群 规划 


主机 名 运行 进程 
NameNode、DataNode、JournalNode、DFSZKFailoverController 
ResourceManager 、NodeManager 

hadoop01、nnl、rml 
JobHistory Server 


QuorumPeerMain 


NameNode、DataNode、JournalNode、DFSZKFailoverController 


hadoop02、nn2、rm2 ResourceManager 、NodeManager 


QuorumPeerMain 


DataNode 、JournalNode 


hadoop03 NodeManager 


QuorumPeerMain 





2. 部 署 过 程 


(1) SSH 免 密码 登录 


使 用 root 用 户 登 录 进 入 到 .ssh 目 录 下 








”1 ssh 





执行 sh-keygen-t rsa 生 成 公 铀 和 私 铀 。 系 统 会 一 直 提示 信息 ， 一 直 按 回 车 就 可 以 。 生 成 私 钥 文 件 id_rsa， 公 钥 文件 id_rsa.pub， 


将 公 钥 文件 内 容 追 加 到 认证 文件 中 


认证 文件 authorized_keys。 





cat ~/.ssh/id rsa.pub >> ~/.ssh/authorized keys 





在 免 密码 登录 的 机 器 之 间 互 相 拷 贝 公 钥 然 后 追加 到 认证 文件 中 ， 即 可 完成 SSH 免 密码 登录 配置 。 


(2) 创建 hadoop 用 户 和 组 





groupadd hadoop 
useradd -m -g hadoophadoop 





(3) 下 载 安装 包 并 和 解压 


先 安装 hadoop01， 然 后 将 配置 好 的 安装 包 拷贝 到 其 他 节点 。 





wget http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.6.5/hadoop-2.6.5.tar.gz 





解压 到 指定 目录 /data/soft/ 下 





tar -zxvf hadoop-2.6.5.tar.gz-C /data/soft/ 








(4) 创建 软 连 接 并 修改 属 主 为 hadoop 


创建 软 连接 便于 以 后 升级 版 本 ， 方 便 统一 管理 。 





ln -s /data/soft/ hadoop-2.6.5 /usr/local/hadoop 
chown -R hadoop:hadoop /usr/local/hadoop 





(5) 设置 环境 变量 





Vim /etc/profile 

export HADOOP HOME=/usr/local/hadoop 

export PATH=$PATH: $JAVA HOME/bin:$M2 HOM/bin:$SCALA HOME/bin 
: $200KEEPER HOME/bin:$ HADOOP HOME/bin 





刷新 环境 变量 使 其 生效 





source /etc/profile 





(6) 设置 配置 文件 
a) HDFS 相 关 的 配置 文件 core-site.xml 和 hdfs-site.xml。 


core-site.xm| 配 置信 息 如 下 : 





<configuration> 
<!-- 指定 hdfs 的 nameservice 为 ns1 --> 
<property> 
<name>fs .defaultFS</name> 
<value>hdfs://nsl</value> 
</property> 
<!-- 指定 hadoop 临 时 目录 --> 
<property> 
<name>hadoop. tmp.dir</name> 
<value>/usr/local/hadoop/tmp</value> 
</property> 
<!-- 指定 zookeeper 地 址 --> 
<property> 
<name>ha. zookeeper .quorum</name> 
<value>hadoop01:2181,hadoop02:2181,hadoop03:2181</value> 
</property> 
</configuration> 





hdfs-site.xm| 配 置信 息 如 下 : 





<configuration> 
<!-- 指 定 hdfs 的 nameservice 为 ns1， 需 要 和 core-site.xmlL 中 的 保持 一 致 --> 
<property> 
<name>dfs.nameservices</name> 
<value>nsl</value> 
</property> 
<!-- nsl 下 面 有 两 个 NameNode， 分 别 是 nn1，nn2 --> 
<property> 
<name>dfs.ha.namenodes.nsl</name> 
<value>nnl, nn2</value> 
</property> 
<!-- nn1 的 RPC 通 信 地 址 --> 
<property> 
<name>dfs.namenode .rpc-address.nsl.nnl</name> 
<value>hadoop01:9000</value> 
</property> 
< nal 的 betp 通 信 地 址 -> 
<property> 
<name>dfs.namenode.http-address.nsl.nnl</name> 
<value>hadoop01:50070</value> 
</propert. 
他 nn2 的 
<property> 


> 
PC 通信 地 址 --> 


<name>dfs.namenode.rpc-address.nsl.nn2</name> 
<value>hadoop02:9000</value> 

</property> 

<!-- nn2 的 http 通 信 地 址 --> 

<property> 
<name>dfs.namenode.http-address.nsl.nn2</name> 
<value>hadoop02:50070</value> 





</property> 

< 轩 定 NomeNode 的 元 数据 在 JournalNode 上 的 存放 位 置 

<property> 
<name>dfs .namenode.shared.edits.dir</name> 
<value> 

qjournal://hadoop01:8485;hadoop02:8485;hadoop03:8485/ns1l 

</value> 

</property> 

< 7 昔 定 journalNode 在 本 地 磁盘 存放 数据 的 位 置 -> 

<property> 
<name>dfs.journalnode.edits.dir</name> 
<value>/usr/local/hadoop/journal</value> 

</property> 

<!-- 开启 NameNode 失 败 自动 切换 --> 

<property> 
<name>dfs.ha.automatic-failover.enabled</name> 
<value>true</value> 

</property> 

<!-- 配置 失败 自动 切换 实现 方式 --> 

<property> 
<name>dfs.client.failover.proxy.provider.nsl</name> 
<value>org.apache.hadoop.hdfs. server.namenode.ha 

.ConfiguredFailoverProxyProvider 

</value> 

</property> 

<!-- 配置 隔离 机 制 --> 

<property> 
<name>dfs.ha. fencing.methods</name> 
<value>sshfence</value> 

</property> 

<!-- 使 用 隔离 机 制 时 需要 ssh 免 登陆 --> 

<property> 


<name>dfs.ha. fencing.ssh.private-key-files</name> 
<value>/root/.ssh/id rsa</value> 
</property> 
<!-- 导 致 DN 停止 工作 的 坏 硬盘 最 大 数 ， 默 认 0 就 是 只 要 有 1 个 硬盘 坏 了 ，DN 就 会 shutdown --> 
<property> 
<name>dfs .datanode.failed.volumes.tolerated</name> 
<value>2</value> 
</property> 
<4B1ock 交 副本 数 为 3 --> 
<property> 
<name>dfs.replication</name> 
<value>3</value> 
</property> 
<!-- fsimage 和 edit 文 件 存 储 路 径 --> 
<property> 
<name>dfs.namenode .name .dir</name> 
<value>/data/hadoop/datal/dfs/name</value> 
</property> 
<!-- 数据 存储 物理 路 径 ， 可 以 配置 多 块 盘 --> 
<property> 
<name>dfs.datanode.data.dir</name> 
<value>/data/hadoop/datal/dfs/data, /data/hadoop/data2/dfs/data </value> 
</property> 
<!-- block 块 大 小 512M--> 
<property> 
<name>dfs .block.size</name> 
<value>536870912</value> 
</property> 
</configuration> 





向 slaves 文 件 添加 datanode/nodemanager 节 点 的 hostname: 





hadoop01 
hadoop02 
hadoop03 





b) YARN 相 关 配 置 文 件 。 


yarn-site.xml 配 置信 息 如 下 : 

















<configuration> 

<!-- 开启 ResourceManager HA --> 

<property> 
<name>yarn.resourcemanager.ha.enabled</name> 
<value>true</value> 

</property> 

<!-- 开启 ResourceManager 失 败 自动 切换 --> 

<property> 
<name>yarn.resourcemanager.ha.automatic-failover.enabled</name> 
<value>true</value> 

</property> 

<!--RM 失 败 后 正在 运行 的 任务 在 RM 恢复 之 后 重新 启动 --> 

<property> 
<name>yarn.resourcemanager .recovery.enabled</name> 
<value>true</value> 

</property> 

<!-- 运行 ResourceManager 的 两 个 节点 --> 

<property> 


<name>yarn.resourcemanager .ha.rm-ids</name> 
<value>rml rm2</value> 

</property> 

<!-- 当 应 用 程序 未 指定 队列 名 时 ， 指 定 用 户 名 作为 应 用 程序 所 在 的 队列 名 --> 

<property> 
<name>yarn.scheduler.fair.user-as-default-queue</name> 
<value>true</value> 

</property> 

< SR 其 基 信息 存储 方式 -> 

<property> 
<name>yarn.resourcemanager .store.class</name> 
<value>org .apache.hadoop.yarn.server.resourcemanager.recovery 

.ZKRMStateStore 

</value> 

</property> 

<property> 
<name>yarn.resourcemanager.cluster-id</name> 
<value>yarn-ha</value> 

</property> 

<property> 
<name>yarn.resourcemanager .hostname.rml</name> 
<value>rml</value> 

</property> 

<!-- RM1 HTTP Web 访 问 地 址 --> 

<property> 
<name>yarn.resourcemanager .webapp.address.rml</name> 
<value>$ {yarn.resourcemanager .hostname.rml}:8088</value> 

</property> 

<property> 
<name>yarn.resourcemanager .hostname.rm2</name> 
<value>rm2</value> 

</property> 

<!-- RM2 HTTP Web 访 问 地 址 --> 

<property> 


<name>yarn.resourcemanager .webapp.address.rm2</name> 
<value>$ {yarn.resourcemanager .hostname.rm2}:8088</value> 








</property> 

<!-- NodeManger 节 点 可 使 用 的 总 内 存 大 小 --> 

<property> 
<name>yarn.nodemanager .resource.memory-mb</name> 
<value>81920</value> 

</property> 

<!-- NodeManger 节 点 可 使 用 的 总 vcore 数 量 --> 

<property> 
<name>yarn.nodemanager.resource.cpu-vcores</name> 
<value>10</value> 

</property> 

<!-- Zookeeper 链 接地 址 ， 为 了 容错 应 配置 多 个 --> 

<property> 


<name>yarn.resourcemanager .zk-address</name> 
<value>hadoop01:2181, hadoop02:2181,hadoop03:2181</value> 
</property> 
<!-- NM 本 地 任务 运行 日 志 存储 路 径 --> 
<property> 
<name>yarn.nodemanager.1og-dirs</name> 
<value>file:///data/hadoop/datal/yarn/log 
,file:///data/hadoop/data2/yarn/1log 


</value> 

</property> 

<!-- ApplicationMaster 占 用 的 内 存 大 小 --> 

<property> 
<name>yarn.app.mapreduce.am.resource.mb</name> 
<value>2048</value> 

</property> 

<!-- 单 个 任务 可 申请 的 最 少 物理 内 存量 --> 

<property> 
<name>yarn.scheduler.minimum-allocation-mb</name> 
<value>1024</value> 

</property> 

<!-- 单 个 任务 可 申请 的 最 多 物理 内 存量 --> 

<property> 
<name>yarn.scheduler .maximum-allocation-mb</name> 
<value>8192</value> 

</property> 

<!-- 单 个 任务 可 申请 的 最 少 vcore 量 --> 

<property> 
<name>yarn.scheduler.minimum-allocation-vcores</name> 
<value>1</value> 

</property> 

<!-- 单 个 任务 可 申请 的 最 多 vcore 量 --> 





<property> 
<name>yarn.scheduler .maximum-allocation-vcores</name> 
<value>10</value> 

</property> 

<!-- 和 开启 日 志 聚 合 到 HDFS--> 





<property> 
<name>yarn.1og-aggregation-enable</name> 
<value>true</value> 

</property> 

<!-- 聚 合 日 志保 存 时 长 ， 单 位 秒 --> 

<property> 


<name>yarn.1og-aggregation.retain-seconds</name> 
<value>259200</value> 
</property> 
<!-- 聚 合 日 志 HDFS 存 储 路 径 --> 
<property> 
<name>yarn.nodqemanager. remote-app-1log-dir</name> 
<value>/data/hadoop/yarn-logs</value> 
</property> 
< 入 用 公平 调度 器 -> 
<property> 
<name>yarn.resourcemanager.scheduler.class</name> 
<value>org .apache.hadoop.yarn.server.resourcemanager.scheduler .fair 
.FairSchedule 
</value> 
</property> 
< 独 用 你 平 调度 器 配置 文件 路 径 -> 
<property> 
<name>yarn.scheduler.fair.allocation.file</name> 
<value>/usr/local/hadoop/etc/hadoop/fair-scheduler.xml</value> 
</property> 
</configuration> 








mapred-site.xml 配 置信 息 如 下 : 





<configuration> 

<!--History Server 配 置 --> 

<property> 
<name>mapreduce.jobhistory.address</name> 
<value>hadoop01:10020</value> 

</property> 

<property> 
<name>mapreduce.jobhistory .webapp.address</name> 
<value>hadoop01:19888</value> 

</property> 

<property> 
<name>mapreduce.jobhistory.joblist.cache.size</name> 
<value>200000</value> 

</property> 

<!--MapReduce 作 业 运 行 在 Yarn 上 --> 

<property> 
<name>mapreduce. framework.name</name> 
<value>yarn</value> 

</property> 

<property> 
<name>mapreduce .map.memory .mb</name> 
<value>1024</value> 

</property> 

<property> 
<name>mapreduce .reduce.memory .mb</name> 
<value>8192</value> 

</property> 

<property> 
<name>mapreduce .map.java.opts</name> 
<value>-Xmx1700m -Xms900m</value> 

</property> 

<property> 
<name>mapreduce.reduce.java.opts</name> 
<value>-Xmx7168m -Xms3000m</value> 

</property> 

<property> 
<name>mapreduce.client.submit.file.replication</name> 
<value>20</value> 

</property> 

li 





认 情 况 下 是 user .name， 即 每 个 用 户 独 自 一 个 pool; group.name， 即 一 个 linux group 
个 pool1，mapred.job.queue.name， 即 一 个 queue 一 个 pool。 
-= 
<property> 
<name>mapred. fairscheduler .poolnameproperty</name> 
<value>group.name</value> 
</property> 
</configuration> 





fair-scheduler.xml 公 平 调度 策略 配置 信息 如 下 ( 按 组 分 配 不 同 的 内 存 和 vcore 资 源 ) : 








<allocations> 
<pool name="groupl"> 
<maxResources>50000 mb,10 vcores</maxResources> 
<maxRunningApps>10</maxRunningApps> 
<weight>1.0</weight> 
<schedulingPolicy>fair</schedulingPolicy> 
</pool> 
<pool name="groupl"> 
<maxResources>80000 mb, 20 vcores</maxResources> 
<maxRunningApps>20</maxRunningApps> 
<weight>1.0</weight> 
<schedulingPolicy>fair</schedulingPolicy> 
</pool> 
<userMaxAppsDefault>99</userMaxAppsDefault> 
<queuePlacementPolicy> 
<rule name="primaryGroup" create="false" /> 
<rule name="secondaryGroupExistingQueue" create="false" /> 
<rule name="reject"/> 
</queuePlacementPolicy> 

</allocations> 








将 配置 好 的 hadoop 拷 贝 到 其 他 节点 : 





scp -r /data/soft/hadoop-2.6.5 hadoo02: /data/soft/ 
scp -r/data/soft/hadoop-2.6.5 hadoo03: /data/soft/ 





(7) 集群 启动 




















从 root 用 户 切 换 到 hadoop 用 户 : 

















su - hadoop 





启动 journalnode (在 hadoop01 上 启动 所 有 journalnode) : 





cd /usr/local/hadoop 
sbin/hadoop-daemons.sh start journalnode 





jps 验 证 ， 后 台 进 程 增 加 JournalNode 进 程 。 
格式 化 HDFS: 


在 hadoop01 上 执行 命令 : hadoop namenode-format 





格式 化 后 会 根据 在 core-site.xml 中 的 hadoop.tmp.dir 配 置 生 成 一 个 文件 ， 拷 贝 该 文件 到 另外 一 个 NameNode 节 点 hadoop02 的 /usr/local/hadoop/tmp 目 录 下 : 





scp -r /usr/local/hadoop/tmp/ hadoop02:/usr/local/hadoop/ 





格式 化 ZK (在 hadoop01 上 执行 即 可 ) : 





hdfs zkfc -formatZK 





启动 HDFS (在 hadoop01 上 执行 ) : 





sbin/start-dfs.sh 





启动 YARN (在 hadoop01 上 执行 ) : 





sbin/start-yarn.sh 











Hadoop 部 署 完 成 后 在 各 个 节点 中 使 用 ps 命令 查看 各 组 件 进程 是 否 运行 正常 。 如 果 发 现 有 问题 则 查看 日 志 进行 排查 。 














(8) 可 以 通过 浏览 器 访问 查看 
http://192.168.1.1:50070 

页 面 显示 : NameNode'hadoop01:9000'(active) 
http://192.168.1.2:50070 

页 面 显示 : NameNode'hadoop02:9000'(standby) 


http://192.168.1.1:8088 


机 3 4 4 
































本 章 主要 介绍 了 构建 基础 环境 所 需要 软件 的 安装 方法 ， 目 前 使 用 的 大 部 分 开源 软件 依赖 于 JVM ， 使 用 较为 广泛 的 开发 语言 为 Java.Scala， 而 源码 编译 普遍 使 用 Maven 工 具 。Hadoop 目 前 已 经 可 以 作为 
大 数据 应 用 系统 的 基础 系统 ， 提 供 分 布 式 数据 存储 、 集 中 式 资源 调度 、 大 规模 分 布 式 计算 等 功能 。 通 过 本 章 的 学 习 初 步 构建 了 一 套 大 数据 应 用 系统 的 基础 环境 。 
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2.1 Spark 概 述 
































Spark 是 由 加 州 大 学 伯克利 分 校 AMP 实 验 室 开源 的 分 布 式 大 规模 数据 处 理 通 用 引擎 ， 具 有 高 符 吐 、 低 延 时 、 通 用 易 扩展 、 高 容错 等 特点 。Spark 内 部 提供 了 丰富 的 开发 库 ， 集 成 了 数据 分 析 引 擎 Spark 
SQL、 图 计算 框架 GraphX、 机 器 学 习 库 MLlib、 流 计算 引擎 Spark Streaming。Spark 在 函数 式 编程 语言 Scala 中 实现 ， 提 供 了 丰富 的 开发 API， 支 持 Scala、Java、Python、R 等 多 种 开发 语言 。 同 
时 ，Spark 提 供 了 多 种 运行 模式 ， 既 可 以 采用 独立 部 署 的 方式 运行 ， 也 可 以 依托 Hadoop YARN、Apache Mesos 等 资源 管理 器 调度 任务 运行 。 目 前 ，Spark 已 经 在 金融 、 交 通 、 医 疗 、 气 象 等 多 种 领域 中 广 
泛 使 用 。 




























































































2.1.1 ”Spark 概 述 


1. 核 心 概念 介绍 








Spark 架 构 示意 图 如 图 2-1 所 示 ， 下 面 将 分 别 介绍 各 核心 组 件 。 


























Client: 客户 端 进程 ， 负 责 提 交 作业 。 


Driver: 一 个 Spark 作 业 有 一 个 Spark Context， 一 个 Spark Context 对 应 一 个 Driver 进 程 ， 作 业 的 main 函 数 运行 在 Driver 中 。Driver 主 要 负责 Spark 作 业 的 解析 ， 以 及 通过 DAGScheduler 划 分 Stage， 
将 Stage 转 化 成 TaskSet 提 交 给 TaskScheduler 任 务 调度 器 ， 进 而 调度 Task 到 Executor 上 执行 。 


Executor: 负责 执行 Driver 分 发 的 Task 任 务 。 集 群 中 一 个 节点 可 以 启动 多 个 Executor， 每 一 个 Executor 可 以 执行 多 个 Task 任 务 。 

Catche: Spark 提 供 了 对 RDD 不 同 级 别 的 缓存 策略 ， 分 别 可 以 缓存 到 内 存 、 磁 盘 、 外 部 分 布 式 内 存 存储 系统 Tachyon 等 。 

Application: 提交 的 一 个 作业 就 是 一 个 Application， 一 个 Application 只 有 一 个 Spark Context。 

Job: RDD 执 行 一 次 Action 操 作 就 会 生成 一 个 Job。 

Task: Spark 运 行 的 基本 单位 ， 负 责 处 理 RDD 的 计算 逻辑 。 

Stage: DAGScheduler 将 Job 划 分 为 多 个 Stage，Stage 的 划分 界限 为 Shuffle 的 产生 ，Shuffle 标 志 着 上 一 个 Stage 的 结束 和 下 一 个 Stage 的 开始 。 


Taskset: 划分 的 Stage 会 转换 成 一 组 相关 联 的 任务 集 。 





RDD (Resilient Distributed Dataset) : 弹性 分 布 式 数 据 集 ， 可 以 理解 为 一 种 只 读 的 分 布 式 多 分 区 的 数组 ，Spark 计 算 操作 都 是 基于 RDD 进 行 的 ， 下 面 会 有 详细 介绍 。 
































DAG (Directed Acyclic Graph) : 有 向 无 环 图 。Spark 实 现 了 DAG 的 计算 模型 ，DAG 计 算 模型 是 指 将 一 个 计算 任务 按照 计算 规则 分 解 为 若干 子 任务 ， 这 些 子 任务 之 间 根 据 兆 辑 关系 构建 成 有 向 无 环 


























Spark 运 行 架构 






DAGScheduler 





图 2-1 Spa 引 架 构 示 意图 


2.RDD 介 绍 


RDD 从 字面 上 理解 有 些 困难 ， 我 们 可 以 认为 是 一 种 分 布 式 多 分 区 只 读 的 数组 ，Spark 计 算 操作 都 是 基于 RDD 进 行 的 。RDD 具 有 几 个 特性 : 只 读 、 多 分 区 、 分 布 式 ,可 以 将 HDFS 块 文件 转换 成 RDD， 也 
可 以 由 一 个 或 多 个 RDD 转 换 成 新 的 RDD， 失 效 自动 重 构 。 基 于 这 些 特性 ，RDD 在 分 布 式 环境 下 能 够 被 高 效 地 并 行 处 理 。 


(1) 计算 类 型 


在 Spark 中 RDD 提 供 Transformation 和 Action 两 种 计算 类 型 。Transformation 操 作 非 常 丰富 ， 采 用 延迟 执行 的 方式 ， 在 逻辑 上 定义 了 RDD 的 依赖 关系 和 计算 逻辑 ， 但 并 不 会 真正 触发 执行 动作 ， 只 有 等 
到 Action 操 作 才 会 触发 真正 执行 操作 。Action 操 作 常 用 于 最 终结 果 的 输出 。 


常用 的 Transformation 操 作 如 表 2-1 所 示 。 


表 2-1 常用 的 Transformation 操 作 及 其 描述 


函数 名 称 


map (func ) 


filter (func) 


flatMap (func) 


mapPartitions (func) 


mapPartitionsWithIndex(func) 


union (otherDatasetb) 
intersection (otherDataset) 


distinct ([numTasks])) 


groupByKey ([numTasks]) 


描 述 

接收 一 个 处 理 函数 并 行 处 理 源 RDD 中 的 每 个 元 素 ， 返回 与 源 RDD 元 素 
一 一 对 应 的 新 RDD 

并 行 处 理 源 RDD 中 的 每 个 元 素 ， 接 收 一 个 处 理 函 数 ， 并 根据 定义 的 规 
则 对 RDD 中 的 每 个 元 素 进行 过 滤 处 理 ， 返 回 处 理 结果 为 true 的 元 素 重 新 
组 成 新 的 RDD 

flatMap 是 map 和 flatten 的 组 合 操作 ， 与 map 函数 相似 ， 不 过 map 函数 
返回 的 新 RDD 包含 的 元 素 可 能 是 能 套 类 型 ，flatMap 接收 一 个 处 理 符 套 会 
将 府 套 类 型 的 元 素 展 开 映 射 成 多 个 元 素 组 成 新 的 RDD 

与 map 函数 应 用 于 RDD 中 的 每 个 元 素 不 同 ，mapPartitions 应 用 于 RDD 
中 的 每 个 分 区 。mapPartitions 函数 接收 的 参数 为 func 函数 ，func 接收 参 
数 为 每 个 分 区 的 迭代 右 ， 返 回 值 为 每 个 分 区 元 素 处 理 之 后 组 成 的 新 的 迭代 
器 ，func 会 作用 于 分 区 中 的 每 一 个 元 素 。 有 一 种 典型 的 应 用 场景 ， 比 如 待 
处 理 分 区 中 的 数据 需要 写 和 人 到 数据 库 ， 如 果 使 用 map 函数 ， 每 一 个 元 素 
都 会 创建 一 个 数据 库 连 接 对 象 ， 非 常 耗 时 并 且 容 易 引 起 问题 发 生 ， 如 果 使 
用 mapPartitions 函数 只 会 在 分 区 中 创建 一 个 数据 库 连 接 对 象 ， 性 能 提高 
明显 


作用 与 mapPartitions 函数 相同 ， 只 是 接收 的 参数 func 函数 需要 传人 两 个 
参数 ， 分 区 的 索引 作为 第 一 个 参数 传人 ， 按 照 分 区 的 索引 对 分 区 中 元 素 进 
行 处 理 

将 两 个 RDD 进行 合并 ， 返 回 结果 为 RDD 中 元 素 (不 去 重 ) 

对 两 个 RDD 进行 取 交 集运 算 ， 返 回 结果 为 RDD 无 重复 元 素 

对 RDD 中 元 素 去 重 

在 KV 类 型 的 RDD 中 按 Key 分 组 ， 将 相同 Key 的 元 素 聚 集 到 同一 个 分 

区 内 ， 此 函数 不 能 接收 函数 作为 参数 ， 只 接收 一 个 可 选 参数 任务 数 ， 所 以 
不 能 在 RDD 分 区 本 地 进行 聚合 计算 ， 如 需 按 Key 对 Value 聚合 计算 ， 只 
能 对 groupByKey 返回 的 新 RDD 继续 使 用 其 他 函数 运算 


函数 名 称 


reduceByKey (func, [numTasks]) 


aggregateByKey (zeroValue)(seqOPp， 
combOp) 


sortByKey ([ascending], [numTasks]) 


join (otherDataset, [numTasks]) 


cogroup (otherDataset, [numTasks]) 


coalesce (numPartitions) 


repartition (numPartitions) 


repartitionAndSortWithinPartitions 


(partitioner) 


常用 的 Action 操 作 如 表 2-2 所 示 。 


( 续 ) 
描 述 

对 KV 类 型 的 RDD 按 Key 分 组 ， 接 收 两 个 参数 ， 第 一 个 参数 为 处 理 函 
数 ， 第 二 个 参数 为 可 选 参数 设置 reduce 的 任务 数 。reduceByKey 函数 能 够 
在 RDD 分 区 本 地 提前 进行 聚合 运算 ， 这 有 效 减 少 了 shuffle 过 程 传输 的 数 
据 量 。 相 对 于 groupByKey 函数 更 简洁 高 效 

对 KV 类 型 的 RDD 按 Key 分 组 进行 reduce 计算 ， 可 接收 三 个 参数 ， 第 
一 个 参数 是 初始 化 值 ， 第 二 个 参数 是 分 区 内 处 理 函 数 ， 第 三 个 参数 是 分 区 
间 处 理 函 数 

对 KV 类 型 的 RDD 内 部 元 素 按照 Key 进行 排序 ， 排 序 过 程 会 涉及 Shuffle 

对 KV 类 型 的 RDD 进行 关联 ， 只 能 是 两 个 RDD 之 间 关 联 ， 超 过 两 个 
RDD 关联 需要 使 用 多 次 join 函数 ，join 函数 只 会 关联 出 具有 相同 Key 的 元 
素 ， 相 当 于 SQL 语句 中 的 inner join 

对 KV 类 型 的 RDD 进行 关联 ，cogroup 处 理 多 个 RDD 关联 比 join 更 加 
优雅 ， 它 可 以 同时 传人 多 个 RDD 作为 参数 进行 关联 ， 产 生 的 新 RDD 中 的 
元 素 不 会 出 现 笛 卡尔 积 的 情况 ,使 用 fullOuterJoin 函数 会 产生 笛 卡 尔 积 

对 RDD 重新 分 区 ， 将 RDD 中 的 分 区 数 减 小 到 参数 numPartitions 个 ， 不 
会 产生 shuffle。 在 较 大 的 数据 集中 使 用 filer 等 过 滤 操 作 后 可 能 会 产生 多 个 
大 小 不 等 的 中 间 结 果 数 据 文件 ， 重 新 分 区 并 减 小 分 区 可 以 提高 作业 的 执行 
效率 ， 是 Spark 中 常用 的 一 种 优化 手段 

对 RDD 重新 分 区 ， 接 收 一 个 参数 一 一 numPartitions 分 区 数 ， 是 coalesce 
函数 设置 shuffle 为 true 的 一 种 实现 形式 

接收 一 个 分 区 对 象 (如 Spark 提供 的 分 区 类 HashPartitioner) 对 RDD 中 
元 素 重 新 分 区 并 在 分 区 内 排序 


表 2-2 常用 的 Action 操 作 及 其 描述 


函数 名 称 描 述 
reduce(func) 处 理 RDD 两 两 之 间 元 素 的 聚集 操作 
collect() 返回 RDD 中 所 有 数据 元 素 
count() 返回 RDD 中 元 素 个 数 
first() 返回 RDD 中 的 第 一 个 元 素 
take(n) 返回 RDD 中 的 前 n 个 元 素 
saveAsTextFile(path) 将 RDD 写 入 文本 文件 ,保存 至 本 地 文件 系统 或 者 HDFS 中 
saveAsSequenceFile(path) 将 KV 类 型 的 RDD 写 入 SequenceFile 文件 ,保存 至 本 地 文件 系统 或 者 HDFS 中 
countByKey() 返回 KV 类 型 的 RDD 每 个 Key 包含 的 元 素 个 数 
re 遍历 RDD 中 所 有 元 素 ， 接 收 参 数 为 func 函数 ， 常 用 操作 是 传 入 println 函数 打印 


所 有 元 素 











从 HDFS 文 件 生成 Spark RDD， 经 过 map、filter、join 等 多 次 Transformation 操 作 ， 最 终 调 用 saveAsTextFile Action 操 作 将 结果 集 输出 到 HDFS， 并 以 文件 形式 保存 。RDD 的 流转 过 程 如 图 2-2 所 示 。 
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图 2-2 RDD 的 流转 过 程 示意 图 
(2) 缓存 


在 spark 中 RDD 可 以 缓存 到 内 存 或 者 磁盘 上 ， 提 供 缓存 的 主要 目的 是 减少 同一 数据 集 被 多 次 使 用 的 网 络 传输 次 数 ， 提 高 Spark 的 计算 性 能 。Spark 提 供 对 RDD 的 多 种 缓存 级 别 ， 可 以 满足 不 同 场景 对 RDD 
的 使 用 需求 。RDD 的 缓存 具有 容错 性 ， 如 果 有 分 区 丢失 ， 可 以 通过 系统 自动 重新 计算 。 








在 代码 中 可 以 使 用 persist() 方 法 或 cache() 方 法 缓存 RDD。cache() 方 法 默认 将 RDD 缓 存 到 内 存 中 ，cache() 方 法 和 persist() 方 法 都 可 以 用 unpersist() 方 法 来 取消 RDD 缓 存 。 示 例如 下 : 





val fileDataRdd = sc.textEile("hdfs://data/nadoop/test.text") 
fileDataRdd.cache() // 缓存 RDD 到 内 存 





或 者 





fileDataRdd.persist (StorageLevel .MEMORY ONLY) 人 
{enet or ts ://wuw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/. .unpersist () // 取消 缓存 
Spark 的 所 有 缓存 级 别 定义 在 





Spark 的 所 有 缓存 级 别 定义 在 org.apache.spark.storage.StorageLevel 对 象 中 ， 如 下 所 示 。 





object storageLevel extends scala.AnyRef with scala.Serializable { 
val NONE : org.apache.spark.storage.StorageLevel 
val DISK ONLY : org.apache.spark.storage.StorageLevel 
val DISK ONLY 2 : org.apache.spark.storage.StorageLevel 
val MEMORY ONLY : org.apache.spark.storage.StorageLevel 
Val MEMORY ONLY 2 : org.apache.spark.storage.StorageLevel 
Val MEMORY ONLY SER : org.apache.spark.storage.StorageLevel 
Val MEMORY ONLY SER 2 : org.apache.spark.storage.StorageLevel 
Val MEMORY AND DISK : org.apache.spark.storage.StorageLevel 
Val MEMORY AND DISK 2 : org.apache.spark.storage.StorageLevel 
val MEMORY AND DISK SER : org.apache.spark.storage.StorageLevel 
val MEMORY AND DISK SER 2 : org.apache.spark.storage.StorageLevel 
Val OFF HEAP : org.apache.spark.storage.StorageLevel 





各 种 缓存 级 别 的 详细 描述 如 表 2-3 所 示 。 


表 2-3 Spark 各 缓存 级 别 及 其 描述 


缓存 级 别 描 述 
MEMORY ONLY RDD 仅 缓 存 一 份 到 内 存 ， 此 为 默认 级 别 
MEMORY ONLY 2 将 RDD 分 别 缓存 在 集群 的 两 个 节点 上 ，RDD 在 集群 内 存 中 保存 两 份 
将 RDD 以 Java 序列 化 对 象 的 方式 缓存 到 内 存 中 ， 有 效 减 少 了 RDD 在 内 存 中 
占用 的 空间 ， 不 过 读 取 时 会 消耗 更 多 的 CPU 资源 
DISK ONLY RDD 仅 缓存 一 份 到 磁盘 
MEMORY AND DISK RDD 仅 缓存 一 份 到 内 存 ， 当 内 存 中 空间 不 足 时 会 将 部 分 RDD 分 区 缓存 到 磁盘 
将 RDD 分 别 缓存 在 集群 的 两 个 节点 上 ， 当 内 存 中 空间 不 足 时 会 将 部 分 RDD 
分 区 缓存 到 磁盘 ，RDD 在 集群 内 存 中 保存 两 份 
将 RDD 以 Java 序列 化 对 象 的 方式 缓存 到 内 存 中 ， 当 内 存 中 空间 不 足 时 会 将 
MEMORY AND_DISK SER | 部 分 RDD 分 区 缓存 到 磁盘 ， 有 效 减 少 了 RDD 在 内 存 中 占用 的 空间 ， 不 过 读 取 
时 会 消耗 更 多 的 CPU 资源 
将 RDD 以 序列 化 的 方式 缓存 到 JVM 之 外 的 存储 空间 Tachyon 中 ， 与 其 他 组 
OFF HEAP 存 模式 相 比 ,减少 了 JVM 垃圾 回收 开销 。Spark 执行 程序 失败 不 会 导致 数据 丢 
失 ，Spark 与 Tachyon 已 经 能 较 好 地 兼容 ， 使 用 起 来 方便 稳定 


MEMORY _ ONLY SER 


MEMORY AND DISK 2 


(3) 依赖 关系 


窒 依 赖 (Narrow Dependency) : 父 RDD 的 分 区 只 对 应 一 个 子 RDD 的 分 区 ， 如 图 2-3 所 示 ， 如 果子 RDD 只 有 部 分 分 区 数据 损坏 或 者 丢失 ， 只 需要 从 对 应 的 父 RDD 重 新 计算 恢复 。 








RDD0 RDDI1 RDD2 
filter( !="") map((_,1)) 





图 2-3” 窄 依 赖 示 意图 

















宽 依赖 (Shuffle Dependency) : 子 RDD 分 区 依赖 父 RDD 的 所 有 分 区 ， 如 图 2-4 所 示 。 如 果子 RDD 部 分 分 区 甚至 全 部 分 区 数据 损坏 或 丢失 ， 需 要 从 所 有 父 RDD 重 新 计算 ,相对 窄 依赖 而 言 付出 的 代价 
更 高 ， 所 以 应 尽量 避免 宽 依 赖 的 使 用 。 














RDD0 reduceByKey( + ) RDDI1 





图 2-4” 宽 依赖 示意 图 


Lineage: 每 个 RDD 都 会 记录 自己 依赖 的 父 RDD 信 息 ， 一 旦 出 现 数据 损坏 或 者 丢失 将 从 父 RDD 迅 速 重新 恢复 。 





3 .运行 模式 
Spark 运 行 模式 主要 有 以 下 几 种 : 
1) Local 模 式 : 本 地 采用 多 线程 的 方式 执行 ， 主 要 用 于 开发 测试 。 


2) On Yarn 模 式 : Spark On Yarn 有 两 种 模式 ， 分 别 为 yarn-client 和 yarn-cluster 模 式 。yarn-client 模 式 中 ，Driver 运 行 在 客户 端 ， 其 作业 运行 日 志 在 客 户 端 查看 ， 适 合 返回 小 数据 量 结果 集 交 互 式 场 
景 使 用 。yarn-cluster 模 式 中 ，Driver 运 行 在 集群 中 的 某 个 节点 ， 节 点 的 选择 由 YARN 调 度 ， 作 业 日 志 通 过 yarn 管 理 名 称 查看 : yarn logs-applicationld<app ID> ， 也 可 以 在 YARN 的 Web UI 中 查看 ， 适 合 
大 数据 量 非 交互 式 场景 使 用 。 








提交 作业 命令 : 
./bin/spark-submit --class package.MainClass \ # 作业 执行 主 类 ， 需 要 完成 的 包 路 径 
-=--master spark://host:port, mesos://host:port, yarn, or local\Maste 


# 运行 方式 
# 部 署 模式 ， 如 果 Master 采 用 YARN 模 式 则 可 以 选择 使 用 
clent 模 式 或 者 cluster 模 式 ， 默认 client 模 式 


—--deploy-mode client,cluster\ 

















-—-driver-memory 1g \ # Driver 运 行内 存 ， 默 认 1G 
---driver-cores 1 \ # Driver 分 配 的 CPU 核 个 数 
—-executor-memory 4g \ # Executor 内 存 大 小 
--executor-cores 1 \ # Executor 分 配 的 CPU 核 个 数 
—--num-executors \ # 作业 执行 需要 启动 的 Executor 数 
---jars \ # 作业 程序 依赖 的 外 部 jar 包 ， 这 些 jar 包 会 从 本 地 上 传 到 
Driver 然 后 分 发 到 各 Executor classpath 中 。 
lib/spark-examples* .jar \ # 作业 执行 JAR 包 
[other application arguments ] # 程序 运行 需要 传 入 的 参数 





作业 在 yarn-cluster 模 式 下 的 执行 过 程 如 图 2-5 所 示 。 
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图 2-5 作业 在 yarn-clustet 模 式 下 的 执行 过 程 
































1) Client 在 任何 一 台 能 与 Yarn 通 信 的 入 口 机 向 Yarn 提 交 作业 ， 提 交 的 配置 中 可 以 设置 申请 的 资源 情况 ， 如 果 没 有 配置 则 将 采用 默认 配置 。 















































2) ResourceManager 接 收 到 Client 的 作业 请 求 后 ， 首 先 检查 程序 启动 的 ApplicationMaster 需 要 的 资源 情况 ， 然 后 向 资源 调度 器 申请 选取 一 个 能 够 满足 资源 要 求 的 NodeManager 节 点 用 于 启动 
ApplicationMaster 进 程 ，ApplicationMaster 启 动 成 功 之 后 立即 在 该 节点 启动 Driver 进 程 。 




















3) ApplicationMaster 根 据 提交 作业 时 设置 的 Executor 相 关 配置 参数 或 者 默认 配置 参数 与 ResourceManager 通 信和 领取 Executor 资 源 信息 ， 并 与 相关 NodeManager 通 信和 启 动 Executor 进 程 。 
4) Executor 启 动 成 功 之 后 与 Driver 通 信和 领取 Driver 分 发 的 任务 。 


5) Task 执 行 ， 运 行 成 功 输出 结果 。 


2.1.2 ” Shuffle 详解 

















Shuffle 最 早出 现 于 MapReduce 框 架 中 ， 负 责 连接 Map 阶 段 的 输出 与 Reduce 阶 段 的 输入 。Shuffle 阶 段 涉及 磁盘 IO、 网 络 传输 、 内 存 使 用 等 多 种 资源 的 调用 ， 所 以 Shuffle 阶 段 的 执行 效率 影响 整个 作业 
的 执行 效率 ， 大 部 分 优化 也 都 是 针对 Shuffle 阶 段 进 行 的 。Spark 是 实现 了 MapReduce 原 语 的 一 种 通用 实时 计算 框架 。Spark 作 业 中 Map 阶 段 的 Shuffle 称 为 Shuffle Write，Reduce 阶 段 的 Shuffle 称 为 
Shuffle Read。Shuffle Write 阶段 会 将 Map Task 中 间 结 果 数 据 写 入 到 本 地 磁盘 ， 而 在 Shuffle Read 阶 段 中 ，Reduce Task 从 Shuffle Write 阶段 拉 取 数据 到 内 存 中 并 行 计算 。Spark Shuffle 阶 段 的 划分 方式 
如 图 2-6 所 示 。 
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图 2-6 ”Spark Shuffle 阶 段 的 划分 方式 
1.Shuffle Write 实 现 方式 


(1) 基于 Hash 的 实现 (hash-based) 


每 个 Map Task 都 会 生成 与 Reduce Task 数 据 相 同 的 文件 数 ， 对 Key 取 Hash 值 分 别 写 入 对 应 的 文件 中 ， 如 图 2-7 所 示 。 生 成 的 文件 数 FileNum=MapTaskNumxReduceTaskNum， 如 果 Map Task 和 
Reduce Task 数 都 比较 多 就 会 生成 大 量 的 小 文件 ， 写 文件 过 程 中 ， 每 个 文件 都 要 占用 一 部 分 缓冲 区 ， 总 占用 缓冲 区 大 小 TotalBufferSize=CoreNumxReduceTaskNumxFileBufferSize， 大 量 的 小 文件 就 会 
占用 更 多 的 缓冲 区 ， 造 成 不 必要 的 内 存 开销 ， 同 时 ， 大 量 的 随机 写 操作 会 大 大 降低 磁盘 IO 的 性 能 。 
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图 2-7 基于 Hash 的 实现 方式 
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由 于 简单 的 基于 Hash 的 实现 方式 扩展 性 较 差 ， 内 存 资 源 利用 率 低 ， 过 多 的 小 文件 在 文件 拉 取 过 程 中 增加 了 磁盘 IO 和 网 络 开销 ， 所 以 需要 对 基于 Hash 的 实现 方式 进行 进一步 优化 ， 为 此 引入 了 
Consolidate (合并 ) 机 制 。 如 图 2-8 所 示 ， 将 同一 个 Core 中 执行 的 Task 输 出 结果 写 入 到 相同 的 文件 中 ， 生 成 的 文件 数 FileNum=CoreNumxReduceTaskNum， 这 种 优化 方式 减少 了 生成 的 文件 数目 ， 提 
高 了 磁盘 IO 的 吞吐 量 ， 但 是 文件 缓存 占用 的 空间 并 没有 减少 ， 性 能 没有 得 到 明显 有 效 的 提高 。 
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设置 方式 


图 2-8 优化 后 的 基于 Hash 的 实现 方式 


代码 中 设置 : conf.get("spark.shuffle.manager","hash") 


配置 文件 中 设置 : 在 conf/spark-default.conf 配 置 文件 中 添加 spark.shuffle.managerhash 


优点 : 实现 简单 ， 小 数量 级 数据 处 理 操作 方便 。 


缺点 : 产生 小 文件 过 多 ， 内 存 利 




















率 低 ， 大 量 的 随机 读 写 造成 磁盘 10 性 能 下 降 。 

















(2) 基于 Sort 的 实现 方式 (sort-based) 


为 了 解决 基于 Hash 的 实现 方式 的 诸多 问题 ，Spark Shuffle 引 入 了 基于 Sort 的 实现 方式 ， 如 








[ 











FileNum=MapTaskNumx2。 数 据 文 件 中 的 数据 按照 Key 分 区 在 不 同 分 区 之 间 排 序 ， 同 一 分 





文件 找到 对 应 的 分 区 数据 偏 移 量 和 范 








围 














设置 方式 











， 然 后 从 数据 文件 读 取 指定 的 数据 。 


代码 中 设置 : conf.get("spark.shuffle.manager","sort") 


区 中 





配置 文件 中 设置 : 在 conf/spark-default.conf 配 置 文件 中 添加 spark.shuffle.manager sort 





2-9 所 示 。 该 方式 中 每 个 Map Task 任 务 生 成 两 个 文件 ， 一 个 是 数据 文件 ， 一 个 是 索引 文件 ， 生 成 的 文件 数 


的 数 H 





居 不 排序 ， 索 引文 件 记录 了 文件 中 每 个 分 








区 的 偏 移 量 和 范 有 








当 Reduce Task 读 取 数 据 时 ， 先 读 取 索 引 
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2-9 ”基于 Sort 的 实现 方式 








基于 Sort 的 实现 方式 的 优 缺 点 : 


2.Shuffle Read 实 现 方式 





Shuffle Read 阶 段 中 Task 通 过 直接 读 取 本 地 Shuffle Write 阶段 产生 的 中 间 结果 数据 或 者 通过 HTTP 的 方式 从 远程 Shuffle Write 阶 段 拉 取 中 间 结 果 数 据 进行 处 理 。Shuffle Write 阶段 基于 Hash 和 基于 
Sort 两 种 实现 方式 产生 的 中 间 结 果 数 据 在 Shuffle Read 阶 段 采 用 同一 种 实现 方式 。 




















1) 获取 需要 拉 取 的 数据 信息 ， 根 据 数据 本 地 性 原则 判断 采用 哪 种 级 别 的 拉 取 方式 。 


2) 判断 是 否 需要 在 Map 端 聚合 (reduceByKey 会 在 Map 端 预 聚 合 ) 。 


个 比 


3) Shuffle Read 阶 段 Task 拉 取 过 来 的 数据 如 果 涉 及 聚合 或 者 排序 ， 则 会 使 用 HashMap 结 构 在 内 存 中 存储 ， 如 果 拉 取 过 来 的 数据 集 在 HashMap 中 已 经 存在 相同 的 键 则 将 数据 聚合 在 一 起 。 此 时 涉及 一 
较 重要 的 参数 一 spark.shuffle.sp 训 ， 决 定 在 内 存 被 写 满 后 是 否 将 数据 以 文件 的 形式 写 入 到 磁盘 ， 默 认 值 为 true， 如 果 设置 为 false， 则 有 可 能 会 发 生 OOM 内 存 溢出 的 风险 ， 建 议 开 启 。 

















4) 排序 聚合 之 后 的 数据 以 文件 形式 写 入 磁盘 将 产生 大 量 的 文件 内 数据 有 序 的 小 文件 ， 将 这 些小 文件 重新 加 载 到 内 存 中 ， 随 后 采用 归并 排序 的 方式 合并 为 一 个 大 的 数据 文件 。 
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Spark 是 由 加 州 大 学 伯克利 分 校 AMP 实 验 室 开源 的 分 布 式 大 规模 数据 处 理 通 用 引擎 ， 具 有 高 吞吐 、 低 延 时 、 通 用 易 扩展 、 高 容错 等 特点 。Spark 内 部 提供 了 9 
司 计算 框架 GraphX、 机 器 学 习 库 MLIib、 流 计算 引擎 Spark Streaming。Spark 在 函数 式 编程 语言 Scala 中 实现 ， 提 供 了 丰富 的 开发 APl， 支 持 Scala、Java、Python、R 等 多 种 开发 语言 。 同 

Spark 提 供 了 多 种 运行 模式 ， 既 可 以 采用 独立 部 署 的 方式 运行 ， 也 可 以 依托 Hadoop YARN、Apache Mesos 等 资源 管理 器 调度 任务 运行 。 目 前 ，Spark 已 经 在 金融 、 交 通 、 医 疗 、 气 象 等 多 种 领域 中 广 
泛 使 用 。 






















































































2.1.1 ”Spark 概 述 


1. 核 心 概念 介绍 




















Spark 架 构 示意 图 如 图 2-1 所 示 ， 下 面 将 分 别 介绍 各 核心 组 件 。 


























Client: 客户 端 进程 ， 负 责 提 交 作业 。 





富 的 开发 库 ， 集 成 了 数据 分 析 引 擎 Spark 





Driver: 一 个 Spark 作 业 有 一 个 Spark Context， 一 个 Spark Context 对 应 一 个 Driver 进 程 ， 作 业 的 main 函 数 运行 在 Driver 中 。Driver 主 要 负责 Spark 作 业 的 解析 ， 以 及 通过 DAGScheduler 划 分 Stage， 
将 Stage 转 化 成 TaskSet 提 交 给 TaskScheduler 任 务 调度 器 ， 进 而 调度 Task 到 Executor 上 执行 。 


Executor: 负责 执行 Driver 分 发 的 Task 任 务 。 集 群 中 一 个 节点 可 以 启动 多 个 Executor， 每 一 个 Executor 可 以 执行 多 个 Task 任 务 。 
Catche: Spark 提 供 了 对 RDD 不 同 级 别 的 缓存 策略 ， 分 别 可 以 缓存 到 内 存 、 磁 盘 、 外 部 分 布 式 内 存 存储 系统 Tachyon 等 。 
Application: 提交 的 一 个 作业 就 是 一 个 Application， 一 个 Application 只 有 一 个 Spark Context。 

Job: RDD 执 行 一 次 Action 操 作 就 会 生成 一 个 Job。 


Task: Spark 运 行 的 基本 单位 ， 负 责 处 理 RDD 的 计算 逻辑 。 


Stage: DAGScheduler 将 Job 划 分 为 多 个 Stage，Stage 的 划分 界限 为 Shuffle 的 产生 ，Shuffle 标 志 着 上 一 个 Stage 的 结束 和 下 一 个 Stage 的 开始 。 


Taskset: 划分 的 Stage 会 转换 成 一 组 相关 联 的 任务 集 。 


RDD (Resilient Distributed Dataset) : 弹性 分 布 式 数 据 集 ， 可 以 理解 为 一 种 只 读 的 分 布 式 多 分 区 的 数组 ，Spark 计 算 操 作 都 是 基于 RDD 进 行 的 ， 下 
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DAG (Directed Acyclic Graph) : 有 向 无 环 图 。Spark 实 现 了 DAG 的 计算 模型 ，DAG 计 算 模型 是 指 将 一 个 计算 任务 按照 计算 规则 分 解 为 若干 子 任务 ， 这 些 子 任务 之 间 根 拉 














会 有 详细 介绍 。 





局 逻辑 关系 构建 成 有 向 无 环 


Spark 运 行 架构 






DAGScheduler 





图 2-1 Spa 引 架 构 示 意图 


2.RDD 介 绍 


RDD 从 字面 上 理解 有 些 困难 ， 我 们 可 以 认为 是 一 种 分 布 式 多 分 区 只 读 的 数组 ，Spark 计 算 操作 都 是 基于 RDD 进 行 的 。RDD 具 有 几 个 特性 : 只 读 、 多 分 区 、 分 布 式 ,可 以 将 HDFS 块 文件 转换 成 RDD， 也 
可 以 由 一 个 或 多 个 RDD 转 换 成 新 的 RDD， 失 效 自动 重 构 。 基 于 这 些 特性 ，RDD 在 分 布 式 环境 下 能 够 被 高 效 地 并 行 处 理 。 


(1) 计算 类 型 


在 Spark 中 RDD 提 供 Transformation 和 Action 两 种 计算 类 型 。Transformation 操 作 非 常 丰富 ， 采 用 延迟 执行 的 方式 ， 在 逻辑 上 定义 了 RDD 的 依赖 关系 和 计算 逻辑 ， 但 并 不 会 真正 触发 执行 动作 ， 只 有 等 
到 Action 操 作 才 会 触发 真正 执行 操作 。Action 操 作 常 用 于 最 终结 果 的 输出 。 


常用 的 Transformation 操 作 如 表 2-1 所 示 。 


表 2-1 常用 的 Transformation 操 作 及 其 描述 


函数 名 称 


map (func ) 


filter (func) 


flatMap (func) 


mapPartitions (func) 


mapPartitionsWithIndex(func) 


union (otherDatasetb) 
intersection (otherDataset) 


distinct ([numTasks])) 


groupByKey ([numTasks]) 


描 述 

接收 一 个 处 理 函数 并 行 处 理 源 RDD 中 的 每 个 元 素 ， 返回 与 源 RDD 元 素 
一 一 对 应 的 新 RDD 

并 行 处 理 源 RDD 中 的 每 个 元 素 ， 接 收 一 个 处 理 函 数 ， 并 根据 定义 的 规 
则 对 RDD 中 的 每 个 元 素 进行 过 滤 处 理 ， 返 回 处 理 结果 为 true 的 元 素 重 新 
组 成 新 的 RDD 

flatMap 是 map 和 flatten 的 组 合 操作 ， 与 map 函数 相似 ， 不 过 map 函数 
返回 的 新 RDD 包含 的 元 素 可 能 是 能 套 类 型 ，flatMap 接收 一 个 处 理 符 套 会 
将 府 套 类 型 的 元 素 展 开 映 射 成 多 个 元 素 组 成 新 的 RDD 

与 map 函数 应 用 于 RDD 中 的 每 个 元 素 不 同 ，mapPartitions 应 用 于 RDD 
中 的 每 个 分 区 。mapPartitions 函数 接收 的 参数 为 func 函数 ，func 接收 参 
数 为 每 个 分 区 的 迭代 右 ， 返 回 值 为 每 个 分 区 元 素 处 理 之 后 组 成 的 新 的 迭代 
器 ，func 会 作用 于 分 区 中 的 每 一 个 元 素 。 有 一 种 典型 的 应 用 场景 ， 比 如 待 
处 理 分 区 中 的 数据 需要 写 和 人 到 数据 库 ， 如 果 使 用 map 函数 ， 每 一 个 元 素 
都 会 创建 一 个 数据 库 连 接 对 象 ， 非 常 耗 时 并 且 容 易 引 起 问题 发 生 ， 如 果 使 
用 mapPartitions 函数 只 会 在 分 区 中 创建 一 个 数据 库 连 接 对 象 ， 性 能 提高 
明显 


作用 与 mapPartitions 函数 相同 ， 只 是 接收 的 参数 func 函数 需要 传人 两 个 
参数 ， 分 区 的 索引 作为 第 一 个 参数 传人 ， 按 照 分 区 的 索引 对 分 区 中 元 素 进 
行 处 理 

将 两 个 RDD 进行 合并 ， 返 回 结果 为 RDD 中 元 素 (不 去 重 ) 

对 两 个 RDD 进行 取 交 集运 算 ， 返 回 结果 为 RDD 无 重复 元 素 

对 RDD 中 元 素 去 重 

在 KV 类 型 的 RDD 中 按 Key 分 组 ， 将 相同 Key 的 元 素 聚 集 到 同一 个 分 

区 内 ， 此 函数 不 能 接收 函数 作为 参数 ， 只 接收 一 个 可 选 参数 任务 数 ， 所 以 
不 能 在 RDD 分 区 本 地 进行 聚合 计算 ， 如 需 按 Key 对 Value 聚合 计算 ， 只 
能 对 groupByKey 返回 的 新 RDD 继续 使 用 其 他 函数 运算 


函数 名 称 


reduceByKey (func, [numTasks]) 


aggregateByKey (zeroValue)(seqOPp， 
combOp) 


sortByKey ([ascending], [numTasks]) 


join (otherDataset, [numTasks]) 


cogroup (otherDataset, [numTasks]) 


coalesce (numPartitions) 


repartition (numPartitions) 


repartitionAndSortWithinPartitions 


(partitioner) 


常用 的 Action 操 作 如 表 2-2 所 示 。 


( 续 ) 
描 述 

对 KV 类 型 的 RDD 按 Key 分 组 ， 接 收 两 个 参数 ， 第 一 个 参数 为 处 理 函 
数 ， 第 二 个 参数 为 可 选 参数 设置 reduce 的 任务 数 。reduceByKey 函数 能 够 
在 RDD 分 区 本 地 提前 进行 聚合 运算 ， 这 有 效 减 少 了 shuffle 过 程 传输 的 数 
据 量 。 相 对 于 groupByKey 函数 更 简洁 高 效 

对 KV 类 型 的 RDD 按 Key 分 组 进行 reduce 计算 ， 可 接收 三 个 参数 ， 第 
一 个 参数 是 初始 化 值 ， 第 二 个 参数 是 分 区 内 处 理 函 数 ， 第 三 个 参数 是 分 区 
间 处 理 函 数 

对 KV 类 型 的 RDD 内 部 元 素 按照 Key 进行 排序 ， 排 序 过 程 会 涉及 Shuffle 

对 KV 类 型 的 RDD 进行 关联 ， 只 能 是 两 个 RDD 之 间 关 联 ， 超 过 两 个 
RDD 关联 需要 使 用 多 次 join 函数 ，join 函数 只 会 关联 出 具有 相同 Key 的 元 
素 ， 相 当 于 SQL 语句 中 的 inner join 

对 KV 类 型 的 RDD 进行 关联 ，cogroup 处 理 多 个 RDD 关联 比 join 更 加 
优雅 ， 它 可 以 同时 传人 多 个 RDD 作为 参数 进行 关联 ， 产 生 的 新 RDD 中 的 
元 素 不 会 出 现 笛 卡尔 积 的 情况 ,使 用 fullOuterJoin 函数 会 产生 笛 卡 尔 积 

对 RDD 重新 分 区 ， 将 RDD 中 的 分 区 数 减 小 到 参数 numPartitions 个 ， 不 
会 产生 shuffle。 在 较 大 的 数据 集中 使 用 filer 等 过 滤 操 作 后 可 能 会 产生 多 个 
大 小 不 等 的 中 间 结 果 数 据 文件 ， 重 新 分 区 并 减 小 分 区 可 以 提高 作业 的 执行 
效率 ， 是 Spark 中 常用 的 一 种 优化 手段 

对 RDD 重新 分 区 ， 接 收 一 个 参数 一 一 numPartitions 分 区 数 ， 是 coalesce 
函数 设置 shuffle 为 true 的 一 种 实现 形式 

接收 一 个 分 区 对 象 (如 Spark 提供 的 分 区 类 HashPartitioner) 对 RDD 中 
元 素 重 新 分 区 并 在 分 区 内 排序 


表 2-2 常用 的 Action 操 作 及 其 描述 


函数 名 称 描 述 
reduce(func) 处 理 RDD 两 两 之 间 元 素 的 聚集 操作 
collect() 返回 RDD 中 所 有 数据 元 素 
count() 返回 RDD 中 元 素 个 数 
first() 返回 RDD 中 的 第 一 个 元 素 
take(n) 返回 RDD 中 的 前 n 个 元 素 
saveAsTextFile(path) 将 RDD 写 入 文本 文件 ,保存 至 本 地 文件 系统 或 者 HDFS 中 
saveAsSequenceFile(path) 将 KV 类 型 的 RDD 写 入 SequenceFile 文件 ,保存 至 本 地 文件 系统 或 者 HDFS 中 
countByKey() 返回 KV 类 型 的 RDD 每 个 Key 包含 的 元 素 个 数 
re 遍历 RDD 中 所 有 元 素 ， 接 收 参 数 为 func 函数 ， 常 用 操作 是 传 入 println 函数 打印 


所 有 元 素 











从 HDFS 文 件 生成 Spark RDD， 经 过 map、filter、join 等 多 次 Transformation 操 作 ， 最 终 调 用 saveAsTextFile Action 操 作 将 结果 集 输出 到 HDFS， 并 以 文件 形式 保存 。RDD 的 流转 过 程 如 图 2-2 所 示 。 
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图 2-2 RDD 的 流转 过 程 示意 图 
(2) 缓存 


在 spark 中 RDD 可 以 缓存 到 内 存 或 者 磁盘 上 ， 提 供 缓存 的 主要 目的 是 减少 同一 数据 集 被 多 次 使 用 的 网 络 传输 次 数 ， 提 高 Spark 的 计算 性 能 。Spark 提 供 对 RDD 的 多 种 缓存 级 别 ， 可 以 满足 不 同 场景 对 RDD 
的 使 用 需求 。RDD 的 缓存 具有 容错 性 ， 如 果 有 分 区 丢失 ， 可 以 通过 系统 自动 重新 计算 。 








在 代码 中 可 以 使 用 persist() 方 法 或 cache() 方 法 缓存 RDD。cache() 方 法 默认 将 RDD 缓 存 到 内 存 中 ，cache() 方 法 和 persist() 方 法 都 可 以 用 unpersist() 方 法 来 取消 RDD 缓 存 。 示 例如 下 : 





val fileDataRdd = sc.textEile("hdfs://data/nadoop/test.text") 
fileDataRdd.cache() // 缓存 RDD 到 内 存 





或 者 





fileDataRdd.persist (StorageLevel .MEMORY ONLY) 人 
{enet or ts ://wuw.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/. .unpersist () // 取消 缓存 
Spark 的 所 有 缓存 级 别 定义 在 





Spark 的 所 有 缓存 级 别 定义 在 org.apache.spark.storage.StorageLevel 对 象 中 ， 如 下 所 示 。 





object storageLevel extends scala.AnyRef with scala.Serializable { 
val NONE : org.apache.spark.storage.StorageLevel 
val DISK ONLY : org.apache.spark.storage.StorageLevel 
val DISK ONLY 2 : org.apache.spark.storage.StorageLevel 
val MEMORY ONLY : org.apache.spark.storage.StorageLevel 
Val MEMORY ONLY 2 : org.apache.spark.storage.StorageLevel 
Val MEMORY ONLY SER : org.apache.spark.storage.StorageLevel 
Val MEMORY ONLY SER 2 : org.apache.spark.storage.StorageLevel 
Val MEMORY AND DISK : org.apache.spark.storage.StorageLevel 
Val MEMORY AND DISK 2 : org.apache.spark.storage.StorageLevel 
val MEMORY AND DISK SER : org.apache.spark.storage.StorageLevel 
val MEMORY AND DISK SER 2 : org.apache.spark.storage.StorageLevel 
Val OFF HEAP : org.apache.spark.storage.StorageLevel 





各 种 缓存 级 别 的 详细 描述 如 表 2-3 所 示 。 


表 2-3 Spark 各 缓存 级 别 及 其 描述 


缓存 级 别 描 述 
MEMORY ONLY RDD 仅 缓 存 一 份 到 内 存 ， 此 为 默认 级 别 
MEMORY ONLY 2 将 RDD 分 别 缓存 在 集群 的 两 个 节点 上 ，RDD 在 集群 内 存 中 保存 两 份 
将 RDD 以 Java 序列 化 对 象 的 方式 缓存 到 内 存 中 ， 有 效 减 少 了 RDD 在 内 存 中 
占用 的 空间 ， 不 过 读 取 时 会 消耗 更 多 的 CPU 资源 
DISK ONLY RDD 仅 缓存 一 份 到 磁盘 
MEMORY AND DISK RDD 仅 缓存 一 份 到 内 存 ， 当 内 存 中 空间 不 足 时 会 将 部 分 RDD 分 区 缓存 到 磁盘 
将 RDD 分 别 缓存 在 集群 的 两 个 节点 上 ， 当 内 存 中 空间 不 足 时 会 将 部 分 RDD 
分 区 缓存 到 磁盘 ，RDD 在 集群 内 存 中 保存 两 份 
将 RDD 以 Java 序列 化 对 象 的 方式 缓存 到 内 存 中 ， 当 内 存 中 空间 不 足 时 会 将 
MEMORY AND_DISK SER | 部 分 RDD 分 区 缓存 到 磁盘 ， 有 效 减 少 了 RDD 在 内 存 中 占用 的 空间 ， 不 过 读 取 
时 会 消耗 更 多 的 CPU 资源 
将 RDD 以 序列 化 的 方式 缓存 到 JVM 之 外 的 存储 空间 Tachyon 中 ， 与 其 他 组 
OFF HEAP 存 模式 相 比 ,减少 了 JVM 垃圾 回收 开销 。Spark 执行 程序 失败 不 会 导致 数据 丢 
失 ，Spark 与 Tachyon 已 经 能 较 好 地 兼容 ， 使 用 起 来 方便 稳定 


MEMORY _ ONLY SER 


MEMORY AND DISK 2 


(3) 依赖 关系 


窒 依 赖 (Narrow Dependency) : 父 RDD 的 分 区 只 对 应 一 个 子 RDD 的 分 区 ， 如 图 2-3 所 示 ， 如 果子 RDD 只 有 部 分 分 区 数据 损坏 或 者 丢失 ， 只 需要 从 对 应 的 父 RDD 重 新 计算 恢复 。 








RDD0 RDDI1 RDD2 
filter( !="") map((_,1)) 





图 2-3” 窄 依 赖 示 意图 

















宽 依赖 (Shuffle Dependency) : 子 RDD 分 区 依赖 父 RDD 的 所 有 分 区 ， 如 图 2-4 所 示 。 如 果子 RDD 部 分 分 区 甚至 全 部 分 区 数据 损坏 或 丢失 ， 需 要 从 所 有 父 RDD 重 新 计算 ,相对 窄 依赖 而 言 付出 的 代价 
更 高 ， 所 以 应 尽量 避免 宽 依 赖 的 使 用 。 














RDD0 reduceByKey( + ) RDDI1 





图 2-4” 宽 依赖 示意 图 


Lineage: 每 个 RDD 都 会 记录 自己 依赖 的 父 RDD 信 息 ， 一 旦 出 现 数据 损坏 或 者 丢失 将 从 父 RDD 迅 速 重新 恢复 。 





3 .运行 模式 
Spark 运 行 模式 主要 有 以 下 几 种 : 
1) Local 模 式 : 本 地 采用 多 线程 的 方式 执行 ， 主 要 用 于 开发 测试 。 


2) On Yarn 模 式 : Spark On Yarn 有 两 种 模式 ， 分 别 为 yarn-client 和 yarn-cluster 模 式 。yarn-client 模 式 中 ，Driver 运 行 在 客户 端 ， 其 作业 运行 日 志 在 客 户 端 查看 ， 适 合 返回 小 数据 量 结果 集 交 互 式 场 
景 使 用 。yarn-cluster 模 式 中 ，Driver 运 行 在 集群 中 的 某 个 节点 ， 节 点 的 选择 由 YARN 调 度 ， 作 业 日 志 通 过 yarn 管 理 名 称 查看 : yarn logs-applicationld<app ID> ， 也 可 以 在 YARN 的 Web UI 中 查看 ， 适 合 
大 数据 量 非 交互 式 场景 使 用 。 








提交 作业 命令 : 
./bin/spark-submit --class package.MainClass \ # 作业 执行 主 类 ， 需 要 完成 的 包 路 径 
-=--master spark://host:port, mesos://host:port, yarn, or local\Maste 


# 运行 方式 
# 部 署 模式 ， 如 果 Master 采 用 YARN 模 式 则 可 以 选择 使 用 
clent 模 式 或 者 cluster 模 式 ， 默认 client 模 式 


—--deploy-mode client,cluster\ 

















-—-driver-memory 1g \ # Driver 运 行内 存 ， 默 认 1G 
---driver-cores 1 \ # Driver 分 配 的 CPU 核 个 数 
—-executor-memory 4g \ # Executor 内 存 大 小 
--executor-cores 1 \ # Executor 分 配 的 CPU 核 个 数 
—--num-executors \ # 作业 执行 需要 启动 的 Executor 数 
---jars \ # 作业 程序 依赖 的 外 部 jar 包 ， 这 些 jar 包 会 从 本 地 上 传 到 
Driver 然 后 分 发 到 各 Executor classpath 中 。 
lib/spark-examples* .jar \ # 作业 执行 JAR 包 
[other application arguments ] # 程序 运行 需要 传 入 的 参数 





作业 在 yarn-cluster 模 式 下 的 执行 过 程 如 图 2-5 所 示 。 
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图 2-5 作业 在 yarn-clustet 模 式 下 的 执行 过 程 
































1) Client 在 任何 一 台 能 与 Yarn 通 信 的 入 口 机 向 Yarn 提 交 作业 ， 提 交 的 配置 中 可 以 设置 申请 的 资源 情况 ， 如 果 没 有 配置 则 将 采用 默认 配置 。 















































2) ResourceManager 接 收 到 Client 的 作业 请 求 后 ， 首 先 检查 程序 启动 的 ApplicationMaster 需 要 的 资源 情况 ， 然 后 向 资源 调度 器 申请 选取 一 个 能 够 满足 资源 要 求 的 NodeManager 节 点 用 于 启动 
ApplicationMaster 进 程 ，ApplicationMaster 启 动 成 功 之 后 立即 在 该 节点 启动 Driver 进 程 。 




















3) ApplicationMaster 根 据 提交 作业 时 设置 的 Executor 相 关 配置 参数 或 者 默认 配置 参数 与 ResourceManager 通 信和 领取 Executor 资 源 信息 ， 并 与 相关 NodeManager 通 信和 启 动 Executor 进 程 。 
4) Executor 启 动 成 功 之 后 与 Driver 通 信和 领取 Driver 分 发 的 任务 。 


5) Task 执 行 ， 运 行 成 功 输出 结果 。 


2.1.2 ” Shuffle 详解 

















Shuffle 最 早出 现 于 MapReduce 框 架 中 ， 负 责 连接 Map 阶 段 的 输出 与 Reduce 阶 段 的 输入 。Shuffle 阶 段 涉及 磁盘 IO、 网 络 传输 、 内 存 使 用 等 多 种 资源 的 调用 ， 所 以 Shuffle 阶 段 的 执行 效率 影响 整个 作业 
的 执行 效率 ， 大 部 分 优化 也 都 是 针对 Shuffle 阶 段 进 行 的 。Spark 是 实现 了 MapReduce 原 语 的 一 种 通用 实时 计算 框架 。Spark 作 业 中 Map 阶 段 的 Shuffle 称 为 Shuffle Write，Reduce 阶 段 的 Shuffle 称 为 
Shuffle Read。Shuffle Write 阶段 会 将 Map Task 中 间 结 果 数 据 写 入 到 本 地 磁盘 ， 而 在 Shuffle Read 阶 段 中 ，Reduce Task 从 Shuffle Write 阶段 拉 取 数据 到 内 存 中 并 行 计算 。Spark Shuffle 阶 段 的 划分 方式 
如 图 2-6 所 示 。 
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图 2-6 ”Spark Shuffle 阶 段 的 划分 方式 
1.Shuffle Write 实 现 方式 


(1) 基于 Hash 的 实现 (hash-based) 


每 个 Map Task 都 会 生成 与 Reduce Task 数 据 相 同 的 文件 数 ， 对 Key 取 Hash 值 分 别 写 入 对 应 的 文件 中 ， 如 图 2-7 所 示 。 生 成 的 文件 数 FileNum=MapTaskNumxReduceTaskNum， 如 果 Map Task 和 
Reduce Task 数 都 比较 多 就 会 生成 大 量 的 小 文件 ， 写 文件 过 程 中 ， 每 个 文件 都 要 占用 一 部 分 缓冲 区 ， 总 占用 缓冲 区 大 小 TotalBufferSize=CoreNumxReduceTaskNumxFileBufferSize， 大 量 的 小 文件 就 会 
占用 更 多 的 缓冲 区 ， 造 成 不 必要 的 内 存 开销 ， 同 时 ， 大 量 的 随机 写 操作 会 大 大 降低 磁盘 IO 的 性 能 。 
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图 2-7 基于 Hash 的 实现 方式 





Reduce Task3 


Map Task3 















由 于 简单 的 基于 Hash 的 实现 方式 扩展 性 较 差 ， 内 存 资 源 利用 率 低 ， 过 多 的 小 文件 在 文件 拉 取 过 程 中 增加 了 磁盘 IO 和 网 络 开销 ， 所 以 需要 对 基于 Hash 的 实现 方式 进行 进一步 优化 ， 为 此 引入 了 
Consolidate (合并 ) 机 制 。 如 图 2-8 所 示 ， 将 同一 个 Core 中 执行 的 Task 输 出 结果 写 入 到 相同 的 文件 中 ， 生 成 的 文件 数 FileNum=CoreNumxReduceTaskNum， 这 种 优化 方式 减少 了 生成 的 文件 数目 ， 提 
高 了 磁盘 IO 的 吞吐 量 ， 但 是 文件 缓存 占用 的 空间 并 没有 减少 ， 性 能 没有 得 到 明显 有 效 的 提高 。 
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设置 方式 


图 2-8 优化 后 的 基于 Hash 的 实现 方式 


代码 中 设置 : conf.get("spark.shuffle.manager","hash") 


配置 文件 中 设置 : 在 conf/spark-default.conf 配 置 文件 中 添加 spark.shuffle.managerhash 


优点 : 实现 简单 ， 小 数量 级 数据 处 理 操作 方便 。 


缺点 : 产生 小 文件 过 多 ， 内 存 利 




















率 低 ， 大 量 的 随机 读 写 造成 磁盘 10 性 能 下 降 。 

















(2) 基于 Sort 的 实现 方式 (sort-based) 


为 了 解决 基于 Hash 的 实现 方式 的 诸多 问题 ，Spark Shuffle 引 入 了 基于 Sort 的 实现 方式 ， 如 








[ 











FileNum=MapTaskNumx2。 数 据 文 件 中 的 数据 按照 Key 分 区 在 不 同 分 区 之 间 排 序 ， 同 一 分 





文件 找到 对 应 的 分 区 数据 偏 移 量 和 范 








围 














设置 方式 











， 然 后 从 数据 文件 读 取 指定 的 数据 。 


代码 中 设置 : conf.get("spark.shuffle.manager","sort") 


区 中 





配置 文件 中 设置 : 在 conf/spark-default.conf 配 置 文件 中 添加 spark.shuffle.manager sort 





2-9 所 示 。 该 方式 中 每 个 Map Task 任 务 生 成 两 个 文件 ， 一 个 是 数据 文件 ， 一 个 是 索引 文件 ， 生 成 的 文件 数 


的 数 H 





居 不 排序 ， 索 引文 件 记录 了 文件 中 每 个 分 








区 的 偏 移 量 和 范 有 








当 Reduce Task 读 取 数 据 时 ， 先 读 取 索 引 
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2-9 ”基于 Sort 的 实现 方式 








基于 Sort 的 实现 方式 的 优 缺 点 : 


2.Shuffle Read 实 现 方式 





Shuffle Read 阶 段 中 Task 通 过 直接 读 取 本 地 Shuffle Write 阶段 产生 的 中 间 结果 数据 或 者 通过 HTTP 的 方式 从 远程 Shuffle Write 阶 段 拉 取 中 间 结 果 数 据 进行 处 理 。Shuffle Write 阶段 基于 Hash 和 基于 
Sort 两 种 实现 方式 产生 的 中 间 结 果 数 据 在 Shuffle Read 阶 段 采 用 同一 种 实现 方式 。 




















1) 获取 需要 拉 取 的 数据 信息 ， 根 据 数据 本 地 性 原则 判断 采用 哪 种 级 别 的 拉 取 方式 。 


2) 判断 是 否 需要 在 Map 端 聚合 (reduceByKey 会 在 Map 端 预 聚 合 ) 。 


3) Shuffle Read 阶 段 Task 拉 取 过 来 的 数据 如 果 涉 及 聚合 或 者 排序 ， 则 会 使 用 HashMap 结 构 在 内 存 中 存储 ， 如 果 拉 取 过 来 的 数据 集 在 HashMap 中 已 经 存在 相同 的 键 则 将 数据 聚合 在 一 起 。 此 时 涉及 一 
个 比较 重要 的 参数 一 一 spark.shuffle.spill， 决 定 在 内 存 被 写 满 后 是 否 将 数据 以 文件 的 形式 写 入 到 磁盘 ， 默 认 值 为 true， 如 果 设置 为 false， 则 有 可 能 会 发 生 O0OM 内 存 溢出 的 风险 ， 建 议 开启 。 

















4) 排序 聚合 之 后 的 数据 以 文件 形式 写 入 磁盘 将 产生 大 量 的 文件 内 数据 有 序 的 小 文件 ， 将 这 些小 文件 重新 加 载 到 内 存 中 ， 随 后 采用 归并 排序 的 方式 合并 为 一 个 大 的 数据 文件 。 

















2.2 Spark SQL 


Spark SQL 是 Spark 的 重要 组 成 模块 ， 也 是 目前 大 数 提 









































居 生 产 环 境 中 使 用 最 广泛 的 技术 之 一 ， 主 要 用 于 结构 化 数据 处 理 。Spark 目 前 已 经 发 布 了 2.X 版 本 ，Spark SQL 的 性 能 也 在 不 断 优化 提升 。Spark SQL 









































的 API 设 计 简洁 高 效 ， 使 用 简单 方便 ， 可 以 与 Hive 表 直 





2.2.1 SparkSession 








接 进行 交互 ， 并 且 支 持 JDBC/ODBC 连 接 。Spark 先 后 引入 了 DataFrame 和 Dataset 两 种 数据 结构 ， 以 便 更 加 高 效 地 处 理 各 种 数据 。 

















Spark 2.0 引 入 了 SparkSession ， 


下 文 需要 创建 SparkContext、SQLContext、HiveContext、SparkConf， 从 Spark 2.0 版 本 开始 不 再 需要 之 前 复杂 的 操作 ， 所 有 的 运行 时 参数 设置 、 获 取 都 可 以 通过 conf 方 法 实现 。conf 方 法 返回 











于 在 Spark SQL 





发 过 程 中 初始 化 上 下 文 ， 为 用 户 提供 统一 的 入 口 。 用 户 可 以 通过 SparkSession API 直 接 创建 DataFrame 和 DataSet。Spark 2.0 之 前 版 本 初始 化 上 











RuntimeConfig 对 象 ，RuntimeConfig 对 象 包含 Spark、Hadoop 等 运行 时 的 配置 信息 。 


Spark 2.0 之 前 版 本 SQLContext 创 建 方式 如 下 : 


val sparkConf = new SparkConf () .setAppName ("Word Count ") 
Val sc = new SparkContext (sparkConf) 


val sqlContext = new SQLContext 


(sc) 





SparkSession 创 建 方式 如 下 : 





val sparkSession= SparkSession.builder() 


.appName ("Word Count") //App. 
.config ("spark.some.config. 
.getOrCreate () 


1ication 名 称 





option", "some-value") 


Spark 2.0 之 前 版 本 支持 Hive 的 HiveContext 创 建 方式 如 下 : 





Val sparkConf = new SparkConf () .setAppName ("HiveFromSpark") 
Val sc = new SparkContext (sparkConf) 
val hiveContext = new org.apache.spark.sql.hive.HiveContext (sc) 




















使 用 enableHiveSupport 支 持 Hive 的 SparkSession 创 建 方式 如 下 : 


val sparkSession= SparkSession.builder() 
.appName ("Spark Hive Example") 
.config ("spark.sql .warehouse.dir", warehouseLocation) 


.enableHiveSupport () 
.getOorCreate () 


如 果 在 环境 中 已 经 创建 过 SparkSession， 使 F 























如 下 方式 获取 已 经 存在 的 SparkSession: 





SparkSession.builder () .getOrCre 


ate () 


SparkSession 的 conf 方 法 返回 RuntimeConfig 对 象 ， 可 以 通过 RuntimeConfig 对 象 的 set (或 get) 方法 设置 (或 获取 ) Spark 运 行 时 的 参数 。 


设置 一 个 Executor 进 程 执行 Task 占 ， 














的 内 存 为 4G : 








sparkSession.conf.set ("spark.executor.memory", "4g") 
val configMap : Map[String String] = sparkSession.conf.getAll 


configMap.foreach{case (k, v) =>pr. 


intln (kK 二 -> 十 


Vv)} 





打印 出 的 运行 时 参数 信息 如 下 : 


spark.driver.host->192.168.1.1 
spark.driver.port->64678 


hive.metastore.warehouse.dir->file:/D: /spark2.1pro/spark-warehouse/ 
spark.some.config.option->some-value 


spark.app.name->spark session test 


spark.executor.id->driver 
spark.master->local 
spark.executor.memory->4g 
spark.app.id->local-14882926263 
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从 代码 中 可 以 看 出 SparkSession 没 有 显 式 地 创建 SparkContext、SQLContext、SparkConf 对 象 ， 因 为 SparkSession 内 部 进行 了 封装 ， 对 用 户 完全 透明 。SparkSession 提 供 了 对 Hive 大 部 分 功能 的 内 

















置 支 持 ， 包 括 使 用 HiveQL 查 询 、 使 




















定义 的 UDF 函 数 、 

















读 取 表 元 数据 等 。 





想 了 解 更 多 关于 SparkSession 的 操作 请 参考 官方 文档 : 


http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.SparkSession。 


2.2.2 DataFrame 








在 Spark 1.3 之 前 版 本 中 ， 用 户 使 


























Spark SQL 时 需要 





接 操作 RDD AP1， 学 习 成 本 相对 较 高 ， 代 码 结构 相对 复杂 ， 为 了 提高 任务 执行 性 能 ， 用 户 还 需要 掌握 一 些 调 优 手段 。Spark 从 1.3 版 本 引入 
































DataFrame，DataFrame 是 一 种 带 有 Schema 元 信息 的 分 布 式 数据 集 ， 类 似 于 传统 数据 库 中 的 二 维 表 ， 定 义 有 字段 名 称 和 类 型 ， 用 户 可 以 像 操 作 数 据 库 表 一 样 使 用 DataFrame。DataFrame 的 开发 API 简 洁 





高 效 ， 代 码 结构 清晰 ， 并 且 Spark 针 对 DataFrame 的 操作 进行 了 丰富 的 优化 。DataFrame 支 持 Jjava、Sscala、Python 等 多 种 开发 语言 ， 不 论 是 专业 的 开发 人 员 ， 还 是 数据 分 析 人 员 都 可 以 轻松 地 使 


















































DataFrame 处 理 结构 化 数据 。Spark 2.0 开 发 API 向 下 兼容 ， 老 版 本 的 API 依 然 可 以 使 用 ， 建 议 在 spark 2.X 环 境 下 使 用 新 的 APl。 


1. 创 建 DataFrame 











SparkSession 可 以 通过 RDD 转 换 、 读 取 Hive 表 、 读 取 不 同 格式 (例如 TXT、JSON、Parquet) 文件 数据 、 通 过 JDBC 连 接 数据 库 表 等 方式 创建 DataFrame。 下 面 通过 案例 介绍 DataFrame 不 同 的 创建 方 
之 后 的 案例 除了 需 








重新 创建 SparkSession 外 统一 使 用 sparkSession 作 为 SparkSession 的 实例 。 

















午 




















1) 通过 读 取 指 定 路 径 文件 的 方式 创建 DataFrame，SparkSession 支 持 读 取 多 种 文件 格式 ， 如 : TXTFile、JSONFile、ParquetFile、CSVFile 等 常用 文件 格式 。 


读 取 HDFS 指 定 路 径 下 的 JSON 文 件 创建 DataFrame: 





val jsonDF = sparkSession.read.json ("hdfs://datasource/data.json") 





加 载 HDFS 指 定 路 径 下 的 CSV 文 件 格式 化 为 CSV 格 式 并 创建 DataFrame: 





Val csvDF = sparkSession.read.format ("csv") .load("hdfs://datasource.csv") 








通过 加 载 文件 格式 指定 类 型 创建 DataFrame 的 方式 等 价 于 sparkSession.read.csv(filePath) 创 建 方式 。 


读 取 HDFS 指 定 路 径 下 的 Parquet 文 件 创建 DataFrame: 





Val parquetDF = sparkSession.read.parquet ("hdfs://datasource/data.parquet") 





2) 通过 RDD 转 换 成 DataFrame， 需 要 引入 spark.implicits 包 进行 隐 式 转换 。 











data.txt 文 件 的 每 一 行 包 含 城市 、 点 击 量 、 曝 光量 三 个 字段 值 ， 字 段 之 间 用 逗号 隔 开 。 定 义 AdData 类 有 三 个 变量 ; city (城市 ) 类 型 为 字符 型 ，click (点 击 量 ) 类 型 为 长 整形 ，pv (曝光 量 ) 类 型 为 长 

















整 型 ， 分 别 与 data.txt 每 行 数据 的 字段 值 一 一 对 应 。SparkSession 通 过 读 取 数 据 文 件 生 成 RDD 转 换 成 DataFrame。 





// 通过 反射 将 类 属性 映射 为 DataFrame 的 Schema 
case class RdData(city: String, click: Long,pv:Long,) 
import spark.implicits._ 
Val rddDF = sparkSession.sparkContext 
.textFile ("hdfs://datasource/ data.txt") 
:map(_.split (",")) 
.map (datas =>AdData (datas (0) ，datas (1) .trim.toInt, datas (2) .trim.toInt)) 


.toDF () 





通过 Transformation 操 作 生 成 的 RDD 转 换 成 带 有 Schema 的 DataFrame: 





Val squaresDF = spark.sparkContext .makeRDD(1 to 5) .map(I => (i, i * i)). 
toDF ("value", "square") 


3) 通过 JDBC 连 接 数 据 库 ， 将 数据 表 数 据 转 换 成 DataFrame。 





Val jdbcDF = sparkSession.read 

.format ("jdbc") 

.option ("url", "jdbc:mysql://192.168.1.1:3306/addata") 
.option ("dbtable", "ad tb") 


.option ("user", "spark") 
.option ("password", "spark123") 
.1oad () 

等 价 实现 





// 定义 属性 对 象 ， 设 置 连接 数据 库 的 配置 信息 。 

Val connectionProperties = new Properties () 
connectionProperties.put ("user", "spark") 
connectionProperties.put ("password", " spark123") 


val jdbcDF2 = spark.read 
‘jdbc ("jdbc:mysql://192.168.1.1:3306/addata", "ad_table", connectionProperties) 











2.DataFrame 常 用 操作 

















DataFrame 常 用 操作 主要 有 以 下 几 种 : 














(1) toDF 函 数 

















作为 DataSet 的 一 种 特殊 形式 ，DataFrame 的 toDF 函 数 定义 在 DataSet 类 中 ， 函 数 的 作用 是 将 RDD 转 换 为 DataFrame。 


函数 定义 如 下 : 





def toDF () : DataFrame = new Dataset [Row] (sparkSession, queryExecution, RowEncoder 
(schema)) 





(2) as 函数 

返回 一 个 指定 别名 的 新 DataSet。 
(3) printSchema 函 数 

打印 DataFrame 的 Schema 信 息 。 


(4) show 函 数 

















默认 以 表格 形式 展现 DataFrame 数 据 集 的 前 20 行 数据 ， 字 符 串 类 型 数据 长 度 超过 20 个 字符 将 会 被 截断 ， 如 果 需 要 控制 显示 的 数据 条 数 和 字符 串 截取 显示 情况 ， 可 以 使 用 带 有 不 同 参数 的 show 方 法 。 





(5) createTempView 函 数 和 createOrReplaceTempView 函 数 









































， 人 临时 视图 随 着 创建 该 视图 会 话 的 终止 自动 删除 ， 不 会 绑 定 到 任何 数据 库 中 ， 不 可 以 使 用 “database.view” 的 方式 来 引入 临时 视图 。DataFrame 提 供 了 两 个 函数 创建 视图 ， 分 别 是 




















网 








创建 临时 视 
createTempView 和 createOrReplaceTempView。 使 用 createTempView 函 数 创 建 视图 ， 如 果 视 图 名 称 已 经 存在 会 抛 出 AnalysisException 异 常 ; 使 用 createOrReplaceTempView 函 数 创建 视 


蜀 名 称 已 经 存在 将 会 被 新 的 视图 蔡 换 覆 盖 。 




















四 | 
渤 
一 
站 
El 




































































为 


”globa 


(6) createGlobalTempView 函 数 














创建 全 局 临时 视图 ， 该 视图 的 声明 周期 与 Spark 应 


| temp.view” 。 



































使 用 SQL 语句 查询 临时 视图 : 














程序 声明 周期 相关 联 ， 随 着 Spark 应 






































程序 的 终止 自动 删除 ， 它 与 系统 保留 的 数据 库 “global temp” 绑 定 ， 该 试图 的 引入 方式 





// 创建 视图 ad_view 
rddDF. createOrReplaceTempView (“ad view” 


// 查询 曝光 量 大 于 10000000 前 城 认 儿科 。， 护 在 守重 降序 排序 


， 取 前 十 的 城市 曝光 信息 


sparkSession.sql (“select city,pv from ad view where pv > 10000000 order by pv desc 


limit 10”) 
// 创建 全 局 视图 ad_global view 
rddDF. createOrReplaceTempView (“ad | global view”) 





sparkSession.sql (“select city,pv from global temp. ad global view where pv > 10000000 order by pv desc”) 























DataFrame 的 查询 操作 不 是 只 能 通过 视图 来 查询 ， 内 部 提供 了 各 种 丰富 的 查询 方法 。 下 面 举例 实现 与 上 例 查 询 临 时 视图 相同 的 功能 。 











rddDF' .where ("pv>10000000 ") .orderBy ("pv desc") .select ("city", "pv 


") 


.limit (10) 





等 价 实现 方式 





rddDF'.where ($"pv">10000000 ) .orderBy ($"pv".desc) .select ($"city", $"pv" 


) .limit (10) 





3.DataFrame 持 久 化 


Spark 提 供 了 DataFrame 保 存 数 据 的 多 种 方式 ，DataFrame 可 以 以 不 同文 件 格式 输出 到 指定 路 径 ， 可 以 保存 到 Hive 表 ， 还 可 以 通过 JDBC 连 接 输出 到 数据 库 表 中 。DataFrame 有 四 种 保存 模式 : 





“SaveMode .ErrorIfExists (简写 为 “error”) : 





“SaveMode .Append (简写 为 append”) 


“SaveMode .Overwrite (简写 为 “overwrite”) : 


“SaveMode .Ignore (简写 为 "ignore”) ， 表 示 如 果 输 出 数据 或 目标 表 已 经 存在 ， 则 不 做 任何 操作 ， 原 数据 不 会 


下 面 将 具体 介绍 DataFrame 保 存 数据 的 几 种 方式 。 





(1) DataFrame 保 存 数 据 到 文件 





DataFrame parquetDF 以 重 


: 表示 如 果 输 出 数据 或 目标 表 已 经 存在 ， 


parquetDF .write.mode (SaveMode.Overwrite) .parquet ("hdfs://sparkdata/data.parquet") 


表示 如 果 输 出 数据 或 者 目标 表 已 经 存在 则 抛 出 异常 ， 此 为 默认 保存 模式 。 
则 DataFrame 的 数据 会 追加 到 原 数 据 或 目标 表 数 据 的 后 面 。 
表示 如 果 输 出 数据 或 目标 表 已 经 存在 ， 则 删除 原 数 据 ， 新 数据 覆盖 原 数 据 。 


受 任何 影响 ， 也 不 会 抛 出 异常 ， 类 似 SQL 语句 中 的 CREATE TABLE IF NOT EXISTS 语 义 。 


写 (overwrite) 模式 将 数据 保存 为 HDFS 指 定 路 径 下 的 parquet 格 式 文件 : 





等 价 实现 





ParquetDF .write.mode (“overwrite’”) .parquet ("hdfs://sparkdata/data.parquet") 





等 价 实现 





squaresDF .write.mode (“overwrite’”) .format ("parquet") .save ("hdfs://sparkdata/data.parquet ") 





和 
的 








经 常 使 














DataFrame 支 持 多 种 格式 的 输出 ， 


(2) DataFrame 保 存 数 据 到 Hive 表 


DataFrame 提 供 两 个 方法 将 数据 保存 到 Hive 表 ， 分 别 是 insertlnto 和 saveAsTable。saveAsTable 与 DataFrame 提 供 的 createOrReplaceTempView 方 法 不 同 ， 
录 中 创建 Hive 元 数据 库 (Derby 数 据 库 ) 保存 Hive 表 的 元 数 





的 文件 格式 有 Parquet、TXT、ORC、JSON 等 。 





前 者 不 会 因为 SparkSQL 程 序 重启 导致 表 


















































数据 丢失 ， 如 果 之 前 没有 搭建 Hive 仓 库 ，Spark 则 会 在 spark.sql.warehouse.dir 配 置 的 











目录 ,该 目录 默认 在 Spark 应 用 程序 

















默认 使 























SaveMode 提 供 的 四 种 保存 模式 ， 























只 十 


与 已 存在 表 列 字段 顺序 相同 ， 









































元 数据 库 连 接 表 和 数 











5 前 目录 创建 spark-warehouse 目 录 。 当 程序 下 次 是 
ErrorlfExists 模 式 ， 即 目标 表 存 在 则 抛 出 异常 。 





重启 之 后 只 要 使 用 的 是 同一 个 

















列 字段 名 称 相同 ， 通 过 列 名 找到 正确 的 列 字段 位 置 月 


可 。 使 





DataFame 定 义 的 Schema 列 字段 顺序 与 已 存在 的 表 列 字段 顺序 一 致 才能 保证 写 入 的 数据 准确 。 


例如 ， 存 在 一 张 表 t1，t1 包 含 两 个 字段 分 别 是 ;和 j: 





insertlnto 方 法 向 Hive 表 写 入 数据 忽略 字段 名 称 ， 


居 信 息 ， 如 果 没 有 配置 spark.sql.warehouse.dir 指 定 
居 就 依然 可 以 使 用 。DataFrame 向 Hive 表 保存 数据 的 时 候 也 会 采 
在 “overwrite” 模 式 或 者 “append” 模 式 下 ， 如 果 表 已 经 存在 ， 则 DataFrame 定 义 的 Schema 列 字段 顺序 不 需 
不 会 根据 字段 名 称 找到 正确 的 列 字段 位 置 ， 因 此 需要 











") .write.mode ("overwrite") 





.SaveAsTable ("t1") 





Seq((1，2) ) .toDF ("i" 下 

Seq((3，4) ) .toDF ("Jj"，"im) .write.insertInto (" 七 L") 
Seq((5，6) ) .toDF ("a", "b") .write.insertInto("t1") 
Sql ("select * from 七 1") .Show 

输出 结果 

十 -一 一 + 一 一 十 

| 于 | 下 | 

十 -一 一 二 -一 一 十 

| 5| 6| 

| | 

| 六 上 晤 | 

十 -一 -+ 一 一 一 十 


(3) DataFrame 保 存 数据 到 数据 库 表 


jdbcDF .write 
.format ("jdbc") 
.option ("wurl", "jdbc:mysql://192.168.1.1:3306/addata") 
.option ("dbtable", " ad table") 
.option ("user", "spark") 
.option ("password", "spark123") 
.Save () 


等 价 实现 : 





// 定义 属性 对 象 ， 设 置 连接 数据 库 的 配置 信息 。 

Val connectionProperties = new Properties () 

connectionProperties.put ("user", "spark") 

connectionProperties.put ("password", " spark123") 

jdbcDF .write.jdbc ("jdbc:mysql://192.168.1.1:3306/addata ", "ad tb", connectionProperties) 





2.2.3 DataSet 





DataSet 是 一 个 特定 域 的 强 类 型 的 不 可 变数 据 集 ， 每 个 DataSet 都 有 一 个 非 类 型 化 视图 DataFrame (DataFame 是 DataSet[Row] 的 一 种 表示 形式 ) 。DataFrame 可 以 通过 调用 as(Encoder) 函 数 转 换 成 
Dataset， 而 DatasSet 则 可 以 通过 调用 toDF() 函 数 转换 成 DataFrame， 两 者 之 间 可 以 互相 灵活 转换 。 操 作 Dataset 可 以 像 操作 RDD 一 样 使 用 各 种 转换 (Transformation) 算 子 并 行 操作 ， 转 换算 子 采 用 “ 惰 
性 ”执行 方式 ， 当 调用 Action 算 子 时 才 会 触发 真正 的 计算 执行 。 
















































































创建 DataSet 需 要 显 式 提供 Encoder 把 对 象 序列 化 为 二 进 制 形式 进行 存储 ， 而 不 是 使 用 Java 序 列 化 或 者 Kryo 序 列 化 方式 。DataSet 使 用 专门 的 编码 器 序列 化 对 象 在 网 络 间 传输 处 理 。 编 码 器 动态 生成 代 
码 ， 可 以 在 编译 的 时 候 检查 类 型 ， 不 需要 将 对 象 反 序列 化 就 可 以 进行 过 滤 、 排 序 等 操作 ， 避 免 了 Shuffle 过 程 中 频繁 的 序列 化 和 反 序 列 化 ， 有 效 减 少 了 内 存 的 使 用 和 Java 对 象 频繁 GC 的 开销 。 





























创建 DataSet: 


1) 通过 case class 创 建 : 


case class AdData (city: String, pv: Long,click:Long) 
val aqDS = Seqg(AdData ("beijing", 10000,1000)) .toDS() 























2) DataFrame 调 用 as[Encoder] 函 数 创建 : 





val path = " hdfs://datasource/addata.txt"" 
val adDs = spark.read.json (path) .as [AdDatal] 
aqDS.show () 


2.3 Structured Streaming 


Structured Streaming， 即 结构 化 流 ， 设 计 者 的 意思 是 将 流 数 据 结构 化 ， 基 于 Spark SQL 引擎 构建 可 扩展 和 高 容错 流 处 理 引擎 。 我 们 可 以 将 同一 种 流 数 据 在 SparkSQL 中 看 作 一 张 无 边 界 大 表 ， 将 源源 不 
断 流入 的 数据 灌 入 该 表 中 。 使 用 SparkStreaming 处 理 流 数据 是 将 大 量 连续 的 数据 按照 时 间 段 切 分 ， 采 用 微 批 处 理 的 方式 直接 操作 RDD， 需 要 开发 者 自主 优化 提高 处 理性 能 。Structured Streaming 提 供 了 
基于 DataFrame 和 DataSet 的 APl， 支 持 Java、Scala、Python 多 种 开发 语言， 内 部 优化 由 Tungsten 引 擎 处 理 完成 ， 优 化 性 能 更 加 高 效 ， 开 发 过 程 快速 、 稳 定 、 高 效 。 













































































在 容错 方面 ，Structured Streaming 通 过 设置 检查 点 和 写 入 日 志 等 方式 确保 端 到 端的 一 次 性 容错 保证 。Structured Streaming 提 供 快 速 ， 精确， 可 扩展 ， 高 容错 ， 端 到 端的 流 处 理 服务 。 对 用 户 来 
说 ，Structured streaming 是 在 静态 表 上 提供 了 将 流 计 算 转换 为 对 无 界 输入 表 的 增 量 查询 计算 。 


















































司 2-10 通 过 图 形 化 的 方式 解释 了 Structured Streaming 处 理 流 数据 的 原理 (图 片 来 自 官方 文档 ) 。 




















Data stream Unbounded Table 


new data In the 
data stream 


new rows appended 
to aunbounded table 


Data stream as an Unbounded table 











2-10 Structuted Streaming 处 理 流 数 据 的 原理 示意 图 





2.3.1 数据 源 




















目前 支持 的 数据 源 有 File Source、Kafka Source、Socket Source 三 种 ， 下 面 详细 介绍 三 种 数据 源 的 使 用 方法 。 











1.File Source 











以 文件 作为 数据 源 ， 读 取 指 定 路 径 下 的 文件 并 创建 DataFrame， 目 前 支持 TXT、CSV、JSON，Parquet 四 种 文件 格式 。 














SparkSession 通 过 读 取 文件 创建 DataFrame 的 示例 代码 如 下 : 

















通过 StructType 创 建 DataFrame Schema，StructType 添 加 字段 标签 有 多 种 方法 ， 下 面 介绍 在 StructType 中 添加 StructField 对 象 的 方法 ，StructType 中 的 每 一 个 标签 都 使 用 StructField 对 象 表 
示 ，StructField 接 收 四 个 参数 : name， 字 段 名 称 ， 字 符 串 类 型 ; dataType， 字 段 类 型 DataType 类 型 ; nullable， 是 否 允 许 为 空 ， 布 尔 类 型 ， 可 选 参数 ， 默 认 值 true; metadata， 字 段 元 数据 ，Metadata 


类 型 ， 可 选 参数 ， 默 认 值 为 Metadata.empty。 











Val adSchema = StructType (Array( 
StructField ("city", StringType, true), 
StructField ("pv", LongType, true), 


和 

// 读 取 CSV 文 件 创建 DataFrme 

val csvDF = spark .readStream 
.option ("sep", "\t") // tab 键 分 割 作 为 分 割 符 
.Schema (adSchema) // 添加 Schema 
.CsV("/data/ad pv_dir/") 





2.Kafka Source 




















从 Kafka 中 拉 取 主题 数据 作为 数据 源 ， 需 要 使 用 Kafka 0.10.0 及 以 上 版 本 。 使 用 Kafka 数 据 源 创建 DataSet 示 例 关键 代码 如 下 : 

















Val lines = spark .readStream 
.format ("kafka") 
.option ("kafka.bootstrap.servers", "192.168.1.1:9092, 192.168.1.2:9092") 
.option ("subscribe", "topicName") 
.lo0ad() 
.SelectExpr ("CAST (value AS STRING)") 
.as[String] 



































调用 format 函 数 声明 数据 源 类 型 为 Kafka ， 通 过 option 函 数 设置 连接 Kafka 的 相关 配置 参数 ， 调 用 selectExpr 函 数 将 value 值 转换 为 String 类 型 ， 调 用 as[String] 函 数 转换 成 DataSet。 在 使 用 Kafka 数 据 
源 的 时 候 可 以 设置 Kafka Consumer 相 关 的 大 部 分 配置 参数 ， 但 是 在 Structured Streaming 内 部 为 了 保证 从 Kafka 拉 取 的 消息 被 准确 、 高 效 、 不 丢 、 不 重地 处 理 ， 内 部 进行 了 优化 设计 ， 会 涉及 Kafka 
Consumer 的 一 些 相关 配 置 特性 ， 所 以 如 果 有 些 配 置信 息 设 置 不 当 就 会 引起 作业 抛 出 异常 ， 不 能 设置 的 配置 参数 如 下 : 
































:group.id:， Cunsumer 从 Kafka 消 费 数据 时 使 用 的 唯一 组 ID，Structureqd Streaming 内 部 会 自动 生成 一 个 唯一 ID 作为 组 ID。 
'auto.offset.reset: 从 Kafka 中 消费 消息 的 方式 。 为 了 保证 从 Kafka 中 消费 的 消息 不 丢 不 重 ，Structured Streaming 在 内 部 管理 消费 的 偏 移 量 。 





:key.deserializer: Key 反 序列 化 方式 ，Structured Streaming 代 码 中 通过 selectExpr 显 式 设 置 。 
"value.deserializer: Value 反 序列 化 方式 ，Structured Streaming 代 码 中 通过 selectExpr 显 式 设置 。 
-enable.auto.commit: 是 否 自动 提交 偏 移 量 ，Structured Streaming 中 不 会 自动 提交 从 Kafka 消 费 的 偏 移 量 ， 偏 移 量 由 Structured Streaming 内 部 维护 。 


interceptor.classes: 如 果 使 用 Consumer，Structured Streaming 采 用 字 节 数据 的 方式 从 Kafka 中 拉 取 消息 。 


3.Socket Source 

































































Structured Streaming 通 过 Driver 监 听 Socket 端 口 ， 接 收 从 端口 传 入 的 UTF-8 字 符 数据 ，Structured Streaming 使 用 Socket Source 数 据 源 不 能 提供 端 到 端的 容错 保证 ， 该 数据 源 只 用 于 测试 使 用 。 
示例 代码 如 下 : 


// 监听 localhost 的 9999 端 口 ， 接 收 端口 传 入 的 字符 数据 。 
val socketDF = spark.readStream 

.format ("socket") 

.option ("host", "localhost") 

.option ("port", 9999) 

.lo0ad() 





2.3.2 ”输出 到 外 部 存储 





























Structured Streaming 将 计算 结果 DataSet 输 出 到 外 部 存储 ，DataSet 通 过 调用 writeStream() 函 数 返 回 DataStreamWriter 对 象 ，DataStreamWriter 对 象 内 部 定义 多 个 函数 ， 用 于 设置 不 同 的 输出 属 
性 。 下 面 将 详细 介绍 DataStreamWriter 对 象 内 部 定义 的 各 函数 的 具体 作用 。 





























“outputMogde: 设置 输出 模式 ， 指 定 结果 集 DataSet 以 怎么 样 的 模式 输出 ， 目 前 提供 VAppend” 和 “Complete”“ 两 种 输出 模式 。 
“queryName: 指定 查询 的 唯一 名 称 ， 作 为 表 的 名 称 〈 可 选 ) 。 使 用 方法 如 下 : 





df.writeStream 
.queryName ("ad_PV tb") 
.outputMode ("complete") 
.format ("memory") 
tart t} 
spark.sql ("select * fromad pv_tb").show() 


'trigger: 定时 触发 器 ， 通 过 设置 触发 时 间 间 隔 ， 定 时 将 计算 结果 集 DataSet 输 出 到 外 部 存储 。 如 果 未 指定 ， 系 统 将 在 上 一 个 处 理 完成 后 立即 检查 新 数据 的 可 用 性 。 如 果 由 于 之 前 处 理 尚 未 完成 而 错过 触发 时 间 ， 系 统 将 尝试 在 下 


一 触发 点 处 触发 ， 而 不 是 在 处 理 完成 之 后 立即 触发 。 


上 


触发 器 的 设置 方式 : 


df .writeStream.trigger (ProcessingTime ("10 seconds") ) 





或 者 





df.writeStream.trigger (ProcessingTime (10.seconds)) 











检查 点 : 为 了 支持 File Sink 和 Foreach Sink 提 供 的 端 到 端 容错 ， 可 通过 设置 HDFS 路 径 作为 检查 点 路 径 ， 记 录 Structured Streaming 计 算 过 程 中 的 全 部 状态 信息 (可 选 ) 。 


检查 点 的 设置 方式 : 





option("checkpointLocation", "hdfs://data/checkpoint/dir") 





1. 输 出 模式 


将 Structured Streaming 计 算 结果 输出 到 外 部 存储 ， 提 供 了 两 种 输出 模式 : 























1) Complete 模 式 : 将 计算 的 全 量 结果 数据 输出 到 外 部 存储 或 者 控制 台 。 支 持 的 查询 类 型 : 聚合 计算 。 如 果 在 Structured Streaming 实 现 逻 辑 中 未 涉及 聚合 计算 ， 输 出 采用 “Complete” 模 式 则 会 抽 


出 如 下 异常 信息 : Complete output mode not supported when there are no streaming aggregations on streaming DataFrames/Datasets。 











2) Append 模 式 : 将 最 新 的 增 量 结果 数据 输出 到 外 部 存储 或 者 控制 台 。 支 持 查 询 类 型 : 非 聚合 计算 。 如 果 在 Structured Streaming 实 现 逻 辑 中 涉及 聚合 计 


异常 信息 : Append output mode not supported when there are streaming aggregations on streaming DataFrames/DataSets。 


2. 输 出 Sink 


(1) File Sink 


将 计算 结果 输出 到 外 部 文件 存储 ， 目 前 只 支持 输出 Parquet 文 件 ， 支 持 端 到 端的 容错 ， 支 持 “Append” 输 出 模式 。 











使 





方法 : writeStream.format("parquet ) 
(2) Foreach Sink 


自 定义 扩展 输出 到 外 部 存储 的 方式 ， 支 持 端 到 端的 容错 








使 





方法 : 





1) 创建 的 Writer 对 象 必须 是 可 序列 化 的 。 


， 支 持 所 有 输出 模式 。 











2) 实现 open、process、close 三 个 函数 。open 函 数 








于 初始 化 创建 与 外 部 系统 的 连接 ， 传 入 参数 为 分 区 ID 和 版 本 号 。 





Pprocess 函 数 















































， 输 出 采用 “Append” 模式 则 会 抛 出 如 下 
于 处 理 中 间 数 据 。close 函 数 用 于 关闭 与 外 部 系统 的 连接 。 








writeStream. foreach (new ForeachWriter[String] { 


def open (PartitionId: Long, version: Long): Boolean = { 


// 初始 化 创建 与 外 部 系统 的 连接 









































def process (record: String) = { 
// 处 理 数 据 
} 
def close (errorOrNu11: Throwable): Unit = 1{ 
// 关闭 与 外 部 系统 连接 
]) 
(3) Console Sink 
将 计算 结果 输出 到 控制 台 ， 用 于 小 数量 数据 集 测试 使 用 ,支持 “Append” 和 “Complete” 两 种 输出 模式 。 
使 用 方法 : writeStream.format("console") 








(4) Memory Sink 























将 计算 结果 以 表 的 形式 存储 到 Driver 的 内 存 中 ， 























使 





方法 : writeStream.format("memory 


2.3.3 ”WordCount 示 例 


于 小 数量 数据 集 测试 使 











,支持 “Append” 和 “Complete” 两 种 输出 模式 。 





下 面 通过 WordCount 示 例 介绍 Structured Streaming 的 编程 模型 ， 代 码 如 下 : 








import org.apache.spark.sql.functions. 
import org.apache.spark.sql.SparkSession 
object StructuredNetworkWordCount { 
def main(args:Array[String]): Unit ={ 
if (args.length < 2) { 


System.err.Println("Usage: StructuredNetworkWordCount <hostname><port>") 


System.exit (1) 


val host args (0) 
val port args (1) .toInt 
val spark = SparkSession 
builder 
.master ("local [2]") 


.appName ("StructuredNetworkWordCount") 


.getOorCreate () 

import spark.implicits. 

val lines = spark.readStream 
.format ("socket") 
.option ("host", host) 
.option ("port", port) 
.lo0ad() 


val words = lines.as[String] .fiatMap( .split(" ")) 
val wordCounts = words.groupBy ("value") .count () 


val query = wordCounts.writeStream 
.outputMode ("complete") 
.format ("console") 
.Start () 
query.awaitTermination() 





代码 执行 流程 : 





1) 创建 SparkSession 初 始 化 上 下 文 ， 添 加 配置 属性 。 


2) 绑 定 固 定 接口 





， 接 收 输入 流 数据 ， 创 建 DataFrame。 


4) 按照 “value” 字 段 求 和 。 


5) 以 “complete” 模 式 将 计算 结果 输出 到 控制 台 。 




















6) 调 

















3) 通过 as 函数 将 DataFrame 转 换 成 字符 型 DataSet， 将 一 行 数 据 按 空格 拆 分 成 多 行 并 返回 新 的 DataSet。 


awaitTermination() 函 数 使 作业 一 直 执行 ， 直 到 查询 终止 。 








操作 : 








1) 通过 nc-lk 9999 命 令 监听 9999 端 口 ; 


2) 提交 StructuredNetworkWordCount 作 业 : 





bin/spark-submit --class scala.spark.sql.StructuredNetworkWordCount -masterlocal 
/usr/local/spark-2.1.0-bin-hadoop2.6/examples/jars/spark2.1pro-1.0-SNAPSHOT-jar-with-dependencies.jar localhost 9999 





输入 四 个 词组 : 





hello world 
word count 
word count 


hello 

计算 结果 如 下 : 
+----- + 一 -一 十 
|value|count1| 
+----- + 一 -一 十 
|hellol 县 | 
lcount| 2| 
| word| 2| 
Iworld| 下 [ 
+----- + 一 -一 十 





通过 查看 计算 结果 可 以 发 现 ， 























代码 注释 掉 ， 只 打印 分 词 之 后 的 结果 。 通 过 设置 触发 器 来 控制 输出 的 时 间 间 隔 ， 本 例 设置 为 5 秒 钟 输出 一 次 。 代 码 如 下 : 


“Complete” 模 式 的 输出 会 将 新 的 计算 结果 与 旧 的 计算 结果 累加 显示 。 下 面 将 输出 模式 改 成 “Append”， 由 于 “Append” 模 式 不 支持 聚合 计算 ， 所 以 将 聚合 计算 部 分 





val words = lines.as[String] .fiatMap(_.split(" ")) 
val query = words.writeStream 
.outputMode ("append") 
.format ("console") 
.trigger (ProcessingTime (5.seconds)) 
.start () 


分 别 输入 三 个 词组 ， 三 个 词组 之 间 的 输入 时 间 间 隔 为 5 秒 钟 。 





hello world 
xiao ming 
xiao bai 

















分 别 输出 了 两 次 ， 从 控制 台 打印 信息 的 时 间 看 ,每 次 输出 的 时 间 间 隔 为 5 秒 钟 ， 每 次 输出 没有 将 上 次 的 结果 一 起 输出 ， 而 是 采用 增 量 的 方式 输出 最 新 结果 。 














2.4 Spark 优 化 


Spark 的 计算 任务 都 在 内 存 中 进行 ， 数 据 集 在 集群 中 不 断 被 交换 传输 和 计算 ， 影 





向 计算 性 能 的 

















能 ， 有 效 提高 资源 利 


2.4.1 数据 优化 


1 .数据 序列 化 


序列 化 是 将 数据 结构 或 者 对 象 转换 成 二 进 制 流 在 网 络 之 间 传 输 。 数 据 序列 化 在 分 布 式 系统 中 非常 重要 ， 在 Spark 应 








率 。 下 面 分 别 从 数据 优化 、 代 码 优化 、 参 数 优化 三 部 分 介绍 常 




















的 优化 方法 。 



































化 减少 内 存 占用 ， 有 效 降低 GC 开 销 ， 提 高 计算 性 能 ， 但 是 同时 也 会 带 来 额外 的 CUP 开 销 。Spark 中 常用 的 两 种 数据 序列 化 方式 : Java 序 列 化 和 Kryo 序 列 化 。 


Java 序 列 化 是 默认 的 序列 化 方式 ， 在 Spark 应 


































































































Kryo 序 列 化 需要 在 Spark 应 














列 化 较 繁琐 ， 并 不 支持 所 有 实现 java.io.Serializable 接 口 的 对 象 序列 化 。 

















在 Spark 应 用 程序 中 使 用 Kryo 序 列 化 需要 在 conf 中 将 spark.serializer 的 值 设置 为 0 




















进行 注册 ，Kryo 也 可 





程序 中 手动 指定 序列 化 方式 ， 将 需要 序列 化 的 类 注册 为 Kryo。 优 点 : 序列 化 速度 快 ， 减 少 网 络 传输 ， 内 存 占用 空间 小 ， 降 低 应 


















































EF 要 瓶颈 是 CPU、 内 存 、 网 络 等 。 在 硬件 资源 有 限 的 情况 下 ， 使 用 各 种 优化 手段 能 加 强 Spark 计 算 任 务 性 




















程序 运行 过 程 中 ， 如 果 是 由 于 GC 开销 引起 的 程序 运行 缓慢 ， 可 以 尝试 使 用 数据 序列 


程序 中 实现 了 java.io.Serializable 接 口 的 对 象 都 可 以 被 序列 化 ， 并 且 可 以 通过 扩展 java.io.Externalizable 来 控制 序列 化 性 能 ， 不 需要 在 程序 中 手动 指定 序 
灵活 方便 。 缺 点 : 序列 化 速度 慢 ， 序 列 化 之 后 的 结果 占用 的 内 存 空间 仍 较 大 。 











程序 GC 开销 。 缺 点 : 使 用 方法 相对 Java 序 











rg.apache.spark.serializer.KryoSerializer， 使 用 registerKryoClasses 方 法 将 需要 序列 化 的 类 注册 为 Kryo， 如 果 不 对 类 











以 使 用 ， 但 是 Kryo 会 保存 每 一 个 类 的 完整 名 称 ， 浪 费 更 多 的 内 存 空间 。 























使 用 Kryo 序 列 化 方式 的 示例 如 下 : 











val conf = new SparkConf () .setMaster (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/...) .setAppName (http://www.hzcourse 
conf.set ("spark.serializer", "org.apache.spark.serializer.KryoSerializer"); 
conf.registerKryoClasses (Array (classOf [MyClass1], classOf[MyClass2])) 
val sc = new SparkContext (conf) 





除了 在 代码 中 手动 指定 序列 化 方式 外 ， 还 可 以 在 配置 文件 spark-defaults.conf 中 将 spark.serializer 值 设置 为 org.apache.spark.serializer.KryoSerializer， 需 要 序列 化 的 多 个 类 


spark.kryo.classesToRegister 参 数 的 值 。 另 外 有 两 个 重要 的 参数 需要 设置 : spark.kryoserializer.buffer.max Kryo， 序 列 化 缓冲 区 的 最 大 值 ， 该 值 必须 大 于 
出 “buffer limit exceeded” 异 常 ， 则 表示 序列 化 缓冲 区 已 达到 上 限 ， 需 要 根据 实际 情况 增加 这 个 值 ， 默 认 值 64M) ; spark.kryoserializer.buffer Kryo， 序 列 化 缓冲 


























有 一 个 缓冲 区 ， 缓 冲 








区 将 不 断 增长 到 spark.kryoserializer.buffer.max 设 置 的 最 大 缓冲 






































区 大 小 。Kryo 不 是 Spark 中 的 默认 序列 化 方式 ， 网 络 密集 型 作业 建议 尝试 使 


Kryo 序 列 化 。 























逗号 隔 开 ， 设 置 为 








需要 序列 化 对 象 的 大 小 〈 如 果 应 用 程序 抛 
区 初始 大 小 ， 每 个 内 核 的 工作 线程 都 











2. 列 式 存储 格式 








数据 文件 采 

















列 式 存储 格式 ， 常 











列 式 存储 的 优势 : 只 读 取 需 


计算 性 能 。 


3 数据 本 地 性 


力 。 


数据 本 地 性 是 本 着 移动 计算 不 移动 数 所 


的 胸 


数据 ， 减 少 读 写 IO; 同一 列 的 数据 类 型 一 致 ， 压 缩 比 高 ， 压 缩 之 后 的 数据 占 





数据 本 地 性 分 为 五 级 ， 按 照 优先 级 从 高 到 低 排列 依次 是 : 


"PROCESS_LOCAL: 数据 与 运行 代码 在 同一 个 JVM 中 ， 性 能 最 高 。 
“NODE_LOCAL: 数据 与 运行 代码 在 同一 个 节点 上 ， 性 能 比 PROCESS_LOCAL 稍 微 差 一 些 ， 数 据 需 要 在 进程 之 间 传输 。 
"NO_PREF: 数据 可 以 从 任何 节点 快速 进行 访问 ， 但 是 访问 速度 相 比 前 两 种 要 稍微 差 一 些 。 

"RACK_LOCAL: 在 同一 个 机 架 不 同 的 服务 器 上 ， 需 要 使 用 交换 机 通过 网 络 传输 。 

"ANY: 不 在 同 机 架 的 任何 一 台 服务 器 上 ， 性 能 最 差 。 


的 列 式 存储 格式 有 ORCFile、Parquet 等 。 

















居 的 原则 ， 避 免 跨 节 点 或 跨 机 架 数 据 传输 ， 提 高 数据 传输 速度 ， 从 而 提高 执行 效率 。 


更 少 的 存储 空间 ; Spark 内 部 对 Parquet 等 列 式 存储 格式 进行 了 特定 的 优化 ， 进 一 步 提 升 


为 了 提高 数据 本 地 性 传输 速度 ， 尽 量 将 DataNode 和 NodeManager 同 节点 部 署 ， 通 过 增加 数据 文件 副本 数 ， 提 交 作 业 时 增加 Executor 数 ， 尽 量 避 免 跨 节 点 或 者 跨 机 架 传输 数据 ， 提 高 任务 并 行 处 理 能 


2.4.2 ”代码 优化 


1.RDD 持 久 化 复 























如 果 同 一 个 RDD 执 行 多 个 Action 操 作 ， 则 每 次 RDD 都 需要 重 算 ， 








解决 方案 : 使 








cache 或 者 persist 缓 存 RDD。 


如 果 RDD 从 文件 创建 ， 则 每 次 都 要 拉 取 一 次 文件 ， 代 价 很 大 。 





sc.textFile ("hdfs://examples/data/wordcount .txt") 
val resultRdd = fileRdd.fiatMap (line => line.split(" ")) .map(( ,1)).reduceByKey( + ) 


resultRdd.cache () 





或 者 





resultRgd.persist (StorageLevel .MEMORY_ONLY) 


resultRdd. collect () 
resultRdd .foreach (println) 


针对 同一 个 RDD 的 Action 操 作 都 从 缓存 中 获取 RDD， 以 此 减少 从 HDFSs 拉 取 文 件 创建 RDD 的 次 数 ， 减 少 对 同一 个 RDD 多 次 重复 转换 操作 的 次 数 ， 减 少 网 络 、 磁 盘 IO、G( 等 


资源 。 


2. 使 


在 Executor 中 只 保留 一 份 。 如 果 不 采 
副本 同时 存在 ， 造 成 内 存 资源 浪费 ， 引 起 JVM 频 繁 GC， 还 有 可 能 发 生 OOM 内 存 溢 出 。 如 果 公共 资源 变量 很 大 又 不 采 











broadcast 广 播 大 变量 





用 


SparkContext 提 供 使 用 broadcast 函 数 广播 变量 ， 


当 一 个 只 读 的 大 变量 作为 一 个 公共 资源 被 各 种 任务 调 









































时 ， 可 以 选择 使 
































/ 


定 ， 官 方 建议 数据 集 大 小 大 于 20K 可 以 考 


3.coalesce(numpPartitions:Int) 函 数 过 滤 后 小 文件 合并 重 分 




















播 的 机 制 ， 哪 个 任务 需要 使 























这 个 变量 就 拉 取 到 任务 中 使 









































虑 使 用 Spark 的 broadcast 广 播 机 制 。 


销 ， 提 高 执行 效率 ， 节 约 


Spark 提 供 的 广播 机 制 ， 将 只 读 大 变量 通过 Driver 分 发 到 各 个 Executor 中 ， 
， 每 个 任务 中 都 会 保留 一 份 变量 数据 ， 如 果 一 个 Executor 中 并 行 执行 多 个 Task， 那 么 就 会 有 多 个 变量 的 
广播 的 方式 ， 每 个 Task 拉 取 一 次 都 会 增加 网 络 和 磁盘 |O 的 开销 。 至 于 这 个 大 怎么 界 


RDD 中 不 同 partition 进 行 filter 操 作 会 产生 不 同 的 结果 文件 ， 有 些 过 滤 掉 极 少数 或 者 没有 过 滤 掉 数据 ， 有 些 过 滤 掉 了 大 部 分 数据 只 剩 下 极 少数 数据 或 者 全 部 过 滤 掉 了 。 在 后 续 的 操作 中 各 个 Task 处 理 的 数 








解决 方案 : 对 数据 过 滤 后 使 











Spark2.0 版 本 的 coalesce 函 数 定 














coalesce 函 数 定义 ， 在 内 部 调 





coalesce (默认 不 进行 shuffl 


义 需 要 传递 一 个 参数 


据 量 相差 很 大 ， 会 造成 有 些 Task 很 快 ， 有 些 Task 很 慢 ， 整 个 作业 运行 速度 会 被 个 别 特别 慢 的 Task 拖 慢 。 








重 分 区 





repartition 将 shuffle 值 设置 为 false， 由 


e， 推 荐 使 























) 或 者 repartition 〈 重 新 分 区 数据 分 得 比较 均匀 ， 默 认 会 进行 shuffle) 操作 合并 若干 分 片 (Partition) 。 


之 后 的 分 区 数 ， 默 认 不 进行 shuffle 操 作 ， 所 以 coalesce 函 数 只 能 将 原 有 分 区 数 减少 ， 如 果 想 增 大 分 区 数 请 使 用 repartition 函 数 。 











不 进行 shuffle 操 作 。 





def coalesce (numPartitions: Int) : Dataset[T] = withTypedPlan { 
repartition (numPartitions，shuffie = false, logicalPlan) 


} 





4.mapPartition 函 数 降低 单条 记录 处 理 开 销 





据 库 ， 使 








RDD 调 














map 函 数 处 理 每 条 记录 写 入 数据 库 中 ， 这 种 情况 每 处 理 一 条 记录 都 要 创建 一 个 数据 库 连 接 ， 重 复 频 繁 的 创建 、 关 闭 数据 库 连接 不 但 给 数据 库 造成 压力 而 | 














解决 方案 : 如 果 在 每 条 记录 处 理 完成 都 要 初始 化 调 











公共 的 资源 




















样 例 代码 如 下 : 


mapPartition 函 数 在 同一 个 分 区 内 使 有 











公共 配置 或 者 调 | 




















， 可 以 选择 使 
公共 的 对 象 都 可 以 大 大 降低 数据 库 连 接 的 初始 化 次 数 ， 减 少 对 象 创建 、 清 除 造成 的 资源 浪费 ， 提 高 处 理 效率 。 





会 降低 作业 的 整体 性 能 。 


mapPartition 函 数 以 分 区 为 单位 ， 分 区 内 只 初始 化 一 次 公共 资源 ， 分 区 内 部 共享 一 个 初始 化 资源 。 比 如 结果 数据 写 入 数 





rdd.mapPartition{ records=> 
conn = getDBConn 
£0Or ,ww 
conn.close 





5 使 














用 


reduceByKey 蔡 换 groupByKey 























RDD 调 用 groupByKey 函 数 按键 进行 分 组 ，groupByKey 不 会 在 Map 端 进行 合并 操作 ， 如 果 使 用 groupByKey 做 聚合 计算 ， 还 需要 在 groupByKey 返 回 的 RDD 再 次 调用 聚合 函数 ， 操 作 复 杂 ， 并 且 
groupByKey 会 引起 Shuffle 数 据 交 换 ， 如 果 Map 端 数据 量 较 大 ， 势 必 在 Shuffle 阶 段 耗费 大 量 的 时 间 进 行 数据 传输 ， 增 大 网 络 开销 ， 引 起 频繁 GC。 









































解决 方案 : 使 用 reduceByKey 替 换 groupByKey，reduceByKey 默 认 会 在 Map 端 进行 一 次 Combiner 预 聚合 操作 ， 将 相同 Key 的 Value 聚合 在 一 起 ， 减 少 Shuffle 阶 段 传输 的 数据 量 ， 一 次 函数 调用 就 可 以 
完成 按键 分 组 和 聚合 计算 ， 代 码 简洁 高 效 。 有 效 降 低 磁盘 IO、 网 络 开销 。 这 个 方案 对 于 Map 端 输出 中 间 结 果 中 Key 重 复 比 较 多 的 情况 优化 效果 比较 明显 。 























以 WordCount 为 例 对 比 reduceByKey 与 groupByKey 的 区 别 : 








val rsRdd = fileRdd.fiatMap (line => line.split(" ")).map((_,1)).groupByKey() 
.mapValues (_.sum) 
val zsRdd = fileRdd.fiatMap (line => line.split(" ")) .map(( ,1)).reduceByKey( + ) 





优化 之 后 的 代码 更 加 简洁 ， 性 能 更 高 


6. 合 理 设置 分 区 实现 join 无 Shuffle 








通常 RDD 的 join 操作 会 引起 Shuffle 的 产生 ， 其 实 如 果 两 个 join 的 RDD 是 相同 分 区 策略 产生 的 分 区 数 相同 的 RDD， 则 不 会 引起 Shuffle 的 产生 。 因 为 采 有 
分 区 策略 ， 如 果 分 区 数 相同 ， 则 相同 的 Key 肯 定 会 被 放 到 相同 的 分 区 中 。 在 两 个 EDD 进 行 join 操作 时 只 需要 将 相同 分 区 的 数据 关联 即 可 。 























相同 的 分 区 策略 对 Key 进 行 分 区 ， 默 认 使 用 Hash 





























样 例 代码 如 下 : 





val rddl = firstRdd.reduceByeKey(_+ ,3) 
val rdd2 = secondRdd.reduceByeKey (_+ ,3) 
rdd1 .join (rdd2) 





此 时 rdd1 和 rdd2 的 连接 则 不 会 有 Shuffle 产 生 。 


7.SparkStreaming 设 置 合适 的 批 处 理 间隔 





设置 合适 的 批 处 理 间 隔 是 针对 SparkStreaming 程 序 的 优化 。 为 了 保障 系统 稳定 高 效 的 运行 ， 最 好 是 保持 DStream 人 处 理 速 度 和 Receiver 接 收 速度 一 致 或 者 处 理 的 速度 快 于 接收 的 速度 。DStream 的 处 理 
时 间 严 重大 于 批 处 理 时 间 间 隔 时 会 导致 数据 积压 ，SparkStreaming 作 业 延 迟 不 断 增加 ， 查 看 Task 运 行 日 志 可 能 会 出 现 大 量 GC， 最 终 可 能 导致 作业 失败 。 为 了 保证 作业 的 稳定 运行 ， 需 要 从 Spark Ul 查看 作 
业 运 行 状态 ， 如 果 每 一 个 批 处 理 的 过 程 任务 执行 时 间 和 延迟 时 间 相 等 则 表示 作业 运行 稳定 ， 没 有 出 现 处 理 速 度 落 后 接收 速度 的 情况 。 如 果 发 现 有 大 量 的 延迟 产生 ， 应 调 小 批 处 理 的 时 间 间 隔 或 者 增 大 
Executor 数 、 调 大 Executor Memory、 增 多 Executor Core 等 资源 。 









































合适 的 时 间 间 隔 没有 固定 值 ， 要 根据 Spark 运 行 集群 的 资源 配置 情况 ，Spark 作 业 分 配 资源 的 使 用 情况 ， 具 体 业 务 要 求 的 时 效 性 等 综合 评估 ， 不 断 测试 ， 最 终 计 算出 合适 的 时 间 间隔 。 























作业 稳定 运行 状态 如 图 2-11 所 示 。 











Scheduling Delay (?) Processing Time (?) Total Delay (3 























图 2-11 作业 稳定 运行 状态 





代码 示例 : 





val conf = new SparkConf () .setMaster (http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...) .setAppName (http://www.hzcourse 
Val sc = new StreamingContext (conf, Seconds (10) ) 


2.4.3 ”参数 优化 


1. 设 置 合适 的 资源 量 





提交 作业 的 时 候 预 估 可 能 处 理 的 数据 量 设置 合适 的 资源 量 ，Executor 是 对 内 存 、CPU 等 资源 的 封装 ， 所 以 合适 的 资源 量 通过 如 下 参数 设置 : 





--qriver-memory 2g \ # Driver 运 行内 存 ， 默 认 1G 
—-driver-cores 1 \ # Driver 分 配 的 CPU 核 个 数 
—-executor-memory 8g \ # Executor 内 存 大 小 
—-executor-cores 2 \ # Executor 分 配 的 CPU 核 个 数 
—-num-executors 50\ # 作业 执行 需要 启动 的 Executor 数 


























如 果 用 到 broadcast 广 播 机 制 ，SparkContext 在 Driver 端 将 变量 通过 广播 分 发 出 去 ， 为 了 保证 Driver 内 存 中 可 以 装 下 需要 广播 的 变量 ， 需 要 适当 调 大 Driver 内 存 。 根 据 实际 情况 动态 合理 地 调整 执行 作业 
请 的 资源 量 ， 申 请 过 多 资源 会 造成 资源 浪费 ， 其 他 任务 资源 紧张 ， 而 申请 过 少 资源 会 造成 作业 运行 缓慢 甚至 失败 。 


















































2. 设 置 合适 的 VM 参数 


如 果 作 业 运 行 缓慢 或 者 失败 ， 通 过 排查 日 志 发 现 是 JVM 的 问题 ， 则 需要 调整 /VM 相关 参数 以 解决 问题 。 与 Java 相 关 的 参数 都 可 以 通过 spark.driver.extraJavaOptions 和 
spark.executor.extraJavaOptions 两 个 参数 设置 。 代 码 如 下 所 示 : 





-conf spark.executor.extraJavaOptions="-XX:+UseConcMarkSweepGC 
-XX:PermSize=64m -XX:MaxPermSize=256m" 


3. 调 整 非 堆 内 存 


建议 增 大 overhead 内 存 大 小 (默认 executor.memoryx0.1) : 





spark.yarn.driver.memoryOverhead 


4.Shuffle 过 程 优化 














Shuffle 过 程 优化 涉及 三 个 参数 ， 具 体 如 下 : 











"spark.shuffle.manager: 设置 Shuffle 的 实现 方式 ， 可 设置 为 hash 或 者 sort， 建 议 使 用 sort。Spark 2.0 版 本 之 前 sort 不 是 默认 的 实现 方式 ，Spark 2.0 版 本 及 以 后 版 本 将 sort 作 为 默认 Shuffle 实 现 方式 。 
spark.default .parallelism: 设置 默认 的 并 行 度 ， 官 方 建议 每 个 Executor Core 运 行 2 一 3 个 Task， 过 多 的 Task 会 造成 资源 浪费 ， 过 少 的 Task 会 造成 运行 缓慢 ， 甚 至 会 造成 COM (内 存 溢 出 ) 的 风险 ， 所 以 要 设置 合适 的 值 。 


“spark.shuffle.memoryFraction: 用 于 设置 Shuffle 读 阶段 Task 从 上 一 个 阶段 拉 取 数据 到 内 存 的 HashMap 中 做 聚合 计算 可 使 用 的 内 存 大 小 ， 当 内 存 中 的 HashMap 装 满 时 会 将 数据 溢 写 到 磁盘 中 。 默 认 该 值 为 Executor 内 存 的 
0.2 倍 ， 如 果 Task 拉 取 过 来 的 数据 量 比较 大 ， 适 当地 增 大 该 值 可 以 减少 溢 写 磁盘 的 次 数 ， 提 高 聚合 计算 性 能 。 











5. 分 区 算 子 的 合理 使 

















例如 groupByKey、reduceByKey 等 算 子 在 调用 过 程 中 可 以 指定 分 区 数量 ， 默 认 情况 下 分 区 数 与 Task 数 相同 。 如 果 Task 数 过 少 ， 则 运行 速度 比较 慢 ， 可 能 会 造成 OOM ， 此 时 可 以 增 大 分 区 数 进而 增 大 
Task 数 ， 提 高 聚合 计算 性 能 。Task 数 目 过 多 则 会 导致 更 多 的 小 任务 启动 并 增 大 调度 开销 。 所 以 要 通过 测试 和 观察 设置 合适 的 值 ， 合 理 地 调整 参数 。 





























2.5 小 结 






































本 章 通过 描述 Spark 的 核心 原理 说 明 Spark 作 为 一 款 通 用 的 分 布 式 计算 框架 的 优势 。 书 中 介绍 了 Spark 2.0 版 本 引入 的 SparkSession、StructuredStreaming 等 优化 设计 及 使 用 方法 ， 以 及 在 SparkSQL 中 
使 用 DataFrame 和 DataSet 的 便利 性 ， 并 结合 实际 经 验 从 三 个 方面 介绍 了 Spark 的 优化 方式 。 

















第 3 章 ”Druid 原 理 及 部 署 






































Druid 是 一 个 分 布 式 提供 海量 时 序数 据 存储 ， 支 持 实时 多 维 数 据 分 析 的 OLAP 系 统 ， 由 美国 MetaMarkets 公 司 创建 并 开源 ， 主 要 应 用 于 广告 数据 分 析 、 网 络 系统 监控 等 场景 。Druid 具 有 高 吞吐 、 易 扩 
展 、 高 容错 、 低 延迟 、 按 时 间 序列 存储 等 特点 。 目 前 已 经 在 生产 环境 广泛 应 用 。 









































3.1 架构 设计 

















Druid 采 用 易 扩 展 、 高 吞吐 、 高 可 用 、 高 时 效 的 设计 方案 ， 按 照 时 间 粒 度 和 各 种 维度 组 合 对 索引 数据 进行 多 种 聚合 查询 ，Druid 不 提供 明细 查询 。 























3.1.1 ”节点 类 型 





Druid 数 据 架构 图 如 图 3-1 所 示 。 

















1.Coordinator 协 调节 点 


Coordinator 协 调节 点 主要 负责 协调 历史 节点 加 载 新 Segment， 删 除 过 时 的 Segment， 管 理 Segment 在 各 层 内 的 副本 ，Segment 的 负载 均衡 等 。Coordinator 的 周期 性 运行 ， 每 次 运行 之 前 都 会 通过 
Zookeeper 获 取 当 前 集群 的 状态 信息 。Coordinator 也 保持 与 数据 库 的 连接 ， 用 于 获取 可 用 Segment 和 规则 的 信息 。 集 群 中 应 该 被 加 载 的 所 有 可 用 的 Segment 被 保存 在 Segment 表 。 规 则 保存 在 规则 表 里 ， 
这 些 规则 表示 Segment 应 该 怎样 被 处 理 。 

































































Segment 被 分 配 到 历史 节点 提供 服务 之 前 ， 首 先 对 每 层 可 用 的 历史 节点 的 容量 从 大 到 小 进行 排序 ， 排 在 最 前 的 历史 节点 可 用 容量 最 大 ， 具 有 最 高 被 分 配 优 先 级 ， 这 种 分 配 规 则 是 为 了 平衡 各 历史 节点 之 
间 的 负载 。 协 调节 点 在 分 配 新 的 Segmemt 到 历史 节点 时 ， 不 直接 与 历史 节点 进行 通信 ， 而 是 在 Zookeeper 的 历史 节点 加 载 队列 中 创建 新 Segment 的 临时 信息 ， 一 旦 发 现 有 新 的 Segment 需 要 加 载 ， 历 史 节 
点 会 从 DeepStorage (深度 存储 ， 如 HDFS) 中 加 载 新 的 Segement 并 提供 服务 。 






































Data Ingestion 
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图 3-1 Druid 数 据 架 构 示 意图 











(1) 设置 segment 规则 


协调 节点 通过 规则 来 判断 哪些 数据 应 该 保留 ， 哪 些 数据 应 该 从 集群 中 删除 ，Segment 的 规则 可 以 通过 协调 节点 控制 台 页 面 设置 (http,//coordinator ip:port) 。 在 Datasource 数 据 源 列表 中 选择 需要 
设置 规则 的 数据 源 ， 点 击 “edit rule” 按钮 弹出 规则 编辑 窗口 ， 在 规则 编辑 窗口 中 添加 加 载 规则 、 删 除 规则 和 分 布 在 各 层 的 副本 数 ， 如 图 3-2 所 示 。 






































规则 标示 Segment 应 该 怎样 分 配 到 不 同 的 历史 节点 层 ， 在 不 同 的 层 应 该 存在 的 副本 数 ， 规 则 也 会 标示 Segment 什 么 时 候 从 集群 中 完全 删除 。 协 调节 点 从 元 数据 存储 中 下 载 一 组 规则 ， 规 则 可 以 被 指定 应 
于 具体 的 数据 源 ， 或 被 设置 成 一 组 默认 的 规则 。 规 则 是 被 顺序 读 取 的 ， 因 此 规则 的 顺序 非常 重要 。 协 调节 点 将 循环 对 所 有 可 用 的 Segment 与 规则 进行 匹配 ， 每 个 Segment 只 能 匹配 一 条 规则 。 






































推荐 使 用 协调 节点 的 WebUI 可 视 化 管理 页 面 配 置 规则 。 协 调节 点 也 支持 通过 HTTP 以 JSON 格 式 设置 规则 。 当 规则 更 新 之 后 不 会 马上 被 应 用 ， 直 到 协调 节点 下 一 次 运行 时 才 会 生效 。 


rule #1 need valid period 
ll 加 ISO 8601 duration + default_tier replicant 


一 一 一 一 一 一 一 一 一 一 一 一 一 | Add a replicant. 
Please enter a valid ISO 


Load 





Bre]e) Interval 





Forever 


8601 duration. 





rule #2 need valid period 


llele ISO 8601 duration 





个 
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Interval 


Please enter a valid ISO 8601 
Forever 





duration. 











图 3-2 ”规则 编辑 窗口 








下 面 介绍 Druid 提 供 的 各 种 加 载 规则 。 


1) 永久 加 载 规则 ， 配 置 如 下 : 





{ 


"type" : "loadForever", 
"tieredReplicants": { 
"hot”s 1 


"dofaolt tiee™" #4 
} 
} 





-type: 值 为 "loadForever”。 
“tieredReplicants: 一 个 JSON 对 象 ， 其 中 JSON 对 象 中 的 key 是 层 名 称 ， 值 对 应 的 是 该 层 Segment 的 副本 数 。 


2) 加 载 一 个 时 间 段 内 的 Segment， 配 置 如 下 : 





{ 
"type" : "loadByInterval", 
"interval": "2016-01-01/2017-01-01"™, 
"tieredReplicants": { 
"not"s 1 
" default tier”: 1 
} 
} 





-type: 固定 值 *loadByInterval”。 
“interval: 指定 开始 和 结束 日 期 的 一 段 时 间 ，ISO-8601 格 式 的 日 期 区 间 。 
“tieredReplicants: 一 个 JSON 对 象 ， 其 中 JSON 对 象 中 的 key 是 层 名 称 ， 值 对 应 的 是 该 层 Segment 的 副本 数 。 





3) period 加 载 规则 ， 配 置 如 下 : 





"type" : "loadByPeriod", 
"period" : "PI1M", 
"tieredReplicants": { 
"hot™s 半 
"default tier™ + 1 
} 
i 


-type: 固定 值 *loadByPeriod”。 
-Period: ISO-8601 格 式 的 日 期 区 间 ， 固 定时 间 周 期 ，P1M 表 示 最 近 一 个 月 。 
-tieredReplicants: 一 个 JSON 对 象 ， 其 中 JSON 对 象 中 的 key 是 层 名 称 ， 值 对 应 的 是 该 层 Segment 的 副本 数 。 


匹配 规则 是 ， 将 Segment 的 时 间 区 间 和 指定 的 时 间 区 间 进 行 比 对 ， 如 果 互 相 之 间 有 时 间 段 重合 则 匹配 成 功 。 





下 面 介绍 Druid 提 供 的 删除 规则 。 


1) 永久 删除 规则 ， 配 置 如 下 : 


"type" : "dropForever" 





2) 时 间 段 删除 规则 : 





{ 
"type" : "dropByInterval", 
"interval" : "2015-01-01/2016-01-01" 
} 


-type: 值 为 “dropByInterval”。 
“interval: 指定 开始 和 结束 日 期 的 一 段 时 间 ，ISO-8601 格 式 的 日 期 区 间 。 





3) 时 间 段 删除 规则 : 





{ 
"type" : "dropByPeriod", 
"period" : "P1M" 


} 





-type: 值 为 "dropByPeriod”。 
“Period: ISO-8601 格 式 的 日 期 区 间 ， 固 定时 间 周 期 ，P1M 表 示 最 近 一 个 月 。 














删除 规则 与 加 载 规则 的 匹配 方式 相同 ， 只 要 Segment 的 时 间 段 在 规则 范围 之 内 ， 则 认定 为 匹配 成 功 。 








(2) 清除 Segment 过 程 























每 次 运行 清除 segment 操 作 ， 协 调节 点 都 会 将 数据 库 中 存储 的 可 用 Segment 列 表 与 当前 集群 中 的 Segment 对 比 ， 数 据 库 中 存储 的 可 用 Segment 列 表 中 不 存在 的 Segment， 但 是 在 集群 中 还 在 提供 服务 
的 Segment， 将 会 被 标记 并 添加 到 移 除 列表 。 那 些 版 本 已 经 过 时 或 者 已 经 被 新 的 Segment 取 代 的 Segment 也 会 被 删除 。 如 果 数 据 库 中 存储 的 所 有 Segment 都 被 删除 或 者 标记 不 可 用 ， 协 调节 点 不 会 通知 历 

































































史 节 点 删除 任何 Segment， 这 样 做 的 目的 是 防止 出 现 竞 态 条件 。 如 果 在 协调 节点 第 一 次 轮 询 访问 数据 库 查 看 可 用 Segment 之 前 执行 了 清除 操作 将 删除 所 有 的 Segment。 


























(3) Segment 高 可 用 实现 

















如 果 历 史 节 点 重启 或 者 由 于 任何 原因 不 可 用 ， 则 协调 节点 会 通过 Zookeeper 感 知 到 ， 并 将 不 可 用 的 历史 节点 下 线 ， 曾 经 在 已 下 线 的 历史 节点 提供 服务 的 所 有 可 用 Segment 重 新 分 配 到 集群 中 其 他 可 用 的 

































































历史 节点 。 对 Segment 执 行 删除 操作 也 不 会 马上 从 集群 中 删除 ，Druid 中 有 一 个 过 渡 数 据 结构 ， 专 门 用 于 存储 被 删除 的 Segment 和 与 其 相关 的 生存 期 ， 协 调节 点 也 不 再 分 配 被 删除 的 这 段 生存 期 的 

































































Segment。 如 果 一 个 历史 节点 在 很 短 的 时 间 内 从 不 可 用 变 得 可 用 ， 该 历史 节点 很 快 会 被 启用 并 通过 该 历史 节点 缓存 提供 可 用 Segment 服 务 ， 而 不 必 通 过 集群 重新 分 配 Segment。 

















(4) Segment 负 载 均衡 


为 了 保证 Segment 在 集群 中 的 历史 节点 之 间 均 匀 分 布 ， 协 调节 点 在 每 次 协调 运行 期 间 都 要 检查 每 个 历史 节点 提供 服务 的 Segment 总 大 小 。 协 调节 点 会 从 集群 中 的 每 个 历史 节点 层 找 出 利用 率 最 高 和 利 F 












































率 最 低 的 两 个 历史 节点 ， 计 算 两 个 节点 之 间 的 利用 率 百 分 比 差 值 ， 如 果 计 算 之 后 的 差 值 超 过 设 定 的 阔 值 ， 将 会 从 利 
文件 设置 ， 从 而 达到 Segment 在 各 历史 之 间 的 负载 均衡 。 








协调 节点 启动 方式 : 





























率 高 的 历史 节点 移动 一 些 Segment 到 利用 率 低 的 节点 ， 移 动 gegment 数 量 可 以 通过 配置 





nohup java “cat conf/druid/overlord/jvm.config | xargs” \ 
-cp conf/druid/_common:conf/druid/coordinator:lib/* \ 
io.druid.cli.Main server coordinator & 





2.RealTime 实 时 节点 


通知 历史 节点 下 载 对 应 的 Segment。 实 时 节点 通过 Zookeeper 监 控 Segment 转 移 的 过 程 和 关 寺 


查询 ,将 由 历史 节点 提供 转移 走 的 这 部 分 Segment 的 查询 服务 。 





实时 节点 通过 StreamPull 从 Kafka 中 拉 取 数据 生成 Segment， 使 


多 个 实时 节点 从 Kafka 多 分 区 拉 取 数据 生成 Segment 无 法 实现 多 副 











同 主题 数据 实现 多 副本 将 难以 实现 。 























本 。Kafka 同 一 组 内 的 消费 者 不 会 寻 




















因为 在 Druid 中 实时 节点 的 副本 是 逻辑 上 相等 ， 并 不 是 真正 














E 复 消费 ， 不 同 组 之 间 可 以 





Kafka 的 Consumer 高 级 AP1， 消 费 的 偏 移 量 交 由 Zookeeper 维 护 ， 高 级 API 对 底层 操作 进行 了 封装 





转移 的 segment 元 数据 存储 过 程 。 一 旦 Segment 被 转移 成 功 ， 实 时 节点 将 不 提供 对 已 经 转移 走 的 Segment 的 

















，API 本 身 使 有 











有 局 限 性 。 





E 复 消费 ， 如 果 想 通过 多 个 实时 节点 分 成 不 同 的 组 ， 各 组 之 间 重 复 消费 相 
的 从 相同 分 区 拉 取 的 数据 ， 比 如 一 个 主题 有 3 个 分 区 p1、p2、p3， 有 两 个 消费 组 group1、group2，group1 





有 实时 节点 s1 和 s2，group2 有 实时 节点 s3 和 s4，s1 消 费 分 区 p1 和 p2，s2 消 费 分 区 p3。s3 消 费 分 区 p2 和 p3，s4 消 费 分 区 p1。 则 Druid 认 为 s1 和 s3 互 为 备份 ，s2 和 s4 互 为 备份 ， 当 从 两 个 节点 查询 时 返回 的 结 














果 并 不 相同 。 























通过 实时 节点 采 


只 有 在 Kafka 主 题 数据 只 有 一 个 分 


Stream Pull 方 式 摄取 数 





区 的 时 候 才 能 够 实现 通过 多 个 实时 节点 多 副本 的 效果 。 























居 与 批量 摄取 同时 使 用 可 能 会 引起 数 











局 覆盖 或 者 数 








居 丢 失 的 问题 。 例 如 为 了 防止 延迟 数 














居 没 有 通过 实时 节点 被 索引 ， 每 天 通过 批量 摄取 任务 对 当天 的 数据 进行 














补充 校 验 ， 如 果 批 处 理 作 业 针对 当天 尚未 完成 的 数据 进行 索引 ， 由 于 批量 作业 生成 更 新 版 本 的 segment， 则 批 处 理 作业 创建 的 Segment 将 会 覆盖 由 实时 节点 创建 的 最 近 的 segment， 此 时 可 能 会 造成 一 部 





分 数据 丢失 。 














实时 节点 数据 摄 入 模式 更 改 ， 需 要 重新 启动 实时 节点 使 新 模式 生效 ， 在 多 分 区 场景 下 难以 规模 化 管理 。 每 个 独立 实时 节点 都 有 





由 于 实时 节点 的 诸多 局 限 性 ， 建 议 使 


3.IndexingService 索 引 服 务 


索引 服务 作为 数据 批量 报 入 和 实时 摄 入 的 统一 入 口 ， 提 供 高 可 
Node 中 间 管 理 节点 协同 完成 数据 摄 入 索引 任务 。 


























IndexingService 索 引 服务 实现 实时 流 数 


























点 ， 中 间 管 理 节点 是 从 节点 ， 为 了 实现 高 可 








的 架构 图 如 图 3-3 所 示 。 











(1) Overlord Node 统 治 节点 


OverlordNode 统 治 节点 负责 : 
理 节 点 和 苦 工 的 配置 信息 。 本 地 模式 通常 
个 节点 运行 。 远 程 模式 统治 节点 只 负责 接 


的 执行 和 监控 任务 执行 状态 。 推 荐 使 























疏 、 


























于 简 


























的 分 布 式 索引 服务 ， 并 且 能 够 提供 Stream Pull 和 Stream Push 两 种 流 数 
统治 节点 负责 接收 和 分 发 任务 ， 中 间 管 理 节点 负责 接收 统治 节点 分 发 的 任务 ， 创 建 Peon 苦 工 执行 


从 启动 的 多 个 统治 节点 中 选举 一 个 作为 





自己 的 一 组 日 志 ， 如 果 遇 到 问题 需要 跨 多 个 节点 查看 日 志 跟 踪 排查 。 














后: 




















报 入 方式 ， 由 OverlordNode 统 治 节点 和 MiddleManager 

















体 任 务 。 索 引 服 务 采 上 














节点 ， 当 








节点 失败 则 继续 选举 3 














主 从 架构 模式 ， 统 治 节点 是 主 节 








节点 切换 过 去 。 官 方 提供 的 索引 服务 

















调和 分 配 任务 ，Overlord 有 两 种 运行 模式 : 本 地 模式 或 者 远程 模式 (默认 本 地 模式 ) 。 在 本 地 模式 下 Overlord 负 责 创 建 Peon 苦 工 用 于 执行 任务 ， 需 要 提供 中 间 管 
的 工作 流程 。 在 远程 模式 下 ， 统 治 节点 和 中 间 管 理 节点 在 独立 的 进程 中 运行 ， 并 且 可 以 部 署 在 不 同 的 服务 器 上 单独 运行 ， 


中 间 管 理 节点 和 苦 工 总 是 在 同一 


改 任务 和 分 配 任务 ， 不 负责 启动 苦 工 执行 任务 ， 而 是 由 中 间 管 理 节点 启动 苦 工 。 统 治 节点 不 会 直接 将 任务 分 发 给 中 间 管 理 节点 ， 而 是 通过 Zookeeper 互 相 协调 任务 








统治 节点 提供 RESTfu| 接 口 ， 客 户 端 可 以 通过 HTTP 的 方式 提交 任务 和 查询 任务 状态 等 管理 操作 。 





new _ task 








Overlord 


new task 


ZooKeeper 


/mml 





/tasks | /mm2 





Middle Manager 1 


new task 














图 3-3 ”IndexingService 索 引 服 务 架 构 


通过 HTTP POST 的 方式 提交 任务 ， 任 务 规则 在 JSON 文 件 中 定义 ， 任 务 提交 之 后 会 返回 任务 id (taskld) ， 请 求 格式 : 


/Status /new task 


new task status 







new task status 





http://<OVERLORD IP>:<port>/druid/indexer/v1/task 





例 : curl-X'POST'-H'Content-Type:application/json'-d@ quickstart/test_index.json 192.168.1.1:9091/druid/indexer/v1/task 


通过 HTTP POST 的 方式 结束 已 提交 任务 ， 请 求 格式 : 





http://<OVERLORD IP>:<port>/druid/indexer/v1/task/{taskId}/shutdown 





例 : curl-X'POST'192.1681.1:9091 





/druid/indexer/v1/task/index hadoop test topic 2016-10-25T02:59:22.6602/shutdown 





通过 HTTP GET 方 式 查看 任务 运行 状态 ， 请 求 格式 : 





http://<OVERLORD IP>:<port>/druid/indexer/v1/task/{taskId}/status 





例 : curl-L-H'Content-Type:application/json'-XGET 





http://192.1681.1:9091/druid/druid/indexer/v1/task/ 
index hadoop test topic 2016-10-25T02:59:22.6602/status 





索引 任务 创建 的 Segment 也 可 以 通过 HTTP GET 的 方式 获得 ， 请 求 格式 : 


http://<OVERLORD IP>:<port>/druid/indexer/v1/task/{taskId}/segments 


例 : curl-L-H'Content-Type:application/json'-XGET 


http://192.1681.1:9091/druid/indexer/v1/task/ 
index hadoop test topic 2016-10-25T02:59:22.6602 /segments 














统治 节点 提供 了 可 视 化 管理 控制 台 ， 可 以 查看 等 待 的 任务 、 运 行 的 任务 、 可 用 的 worker， 最 近 创 建 和 结束 的 worker。Overlord 控 制 台 访 问 方式 : http://<OVERLORD IP>:<port>/console.html。 








统治 节点 启动 方式 : 


nohup java ‘cat conf/druid/overlord/jvm.config | xargs”\ 
-cp conf/druid/ common:conf/druid/overlord:1lib/* \ 
io.druid.cli.Main server overlord & 


(2) MiddleManager 中 间 管 理 节点 

















MiddleManager Node 中 间 管 理 节点 是 执行 提交 任务 的 工作 节点 。Middle Manager 将 任务 分 发 到 苦 工 运行 ， 一 个 苦 工 在 一 个 单独 的 JVM 中 运行 。 通 过 单独 的 JVM 对 任务 做 资源 隔离 和 日 志 隔离 。 一 个 
苦 工 在 同一 时 间 只 能 运行 一 个 任务 ， 一 个 中 间 管 理 节 点 可 以 管理 多 个 苦 工 。 








中 间 管 理 节点 启动 方式 : 


nohup java“cat conf/druid/middleManager/jvm.config | xargs” \ 
-cp conf/druid/_common:conf/druid/middleManager:1lib/* \ 
io.druid.cli.Main server middleManager & 


(3) Peon 苦 工 

















苦 工 顾名思义 就 是 真正 干 活 的 ， 在 一 个 单独 的 JVM 中 运行 任务 ，MiddleManager 负 责 创建 苦 工 用 于 运行 任务 。 

















4.Historical 历 史 节点 


历史 节点 (Historical Node) 提供 Segment 缓 存 和 查询 服务 。 





协调 节点 负责 将 新 的 segment 分 配给 历史 节点 或 者 安排 历史 节点 删除 过 时 的 segment。 历 史 节 点 和 协调 节点 之 间 不 直接 通信 ， 而 是 通过 Zookeeper 协 调 管理 。 每 一 个 历史 节点 保持 与 Zookeeper 的 连 
接 ， 查 看 一 个 可 配置 的 关于 新 Segment 信 息 的 Zookeepe 路 径 。 当 一 个 历史 节点 发 现在 Zookeeper 中 与 它 关 联 的 加 载 队 列 目录 下 有 一 个 新 的 加 载 记 录 时 ， 它 首先 检查 本 地 磁盘 缓存 中 关于 新 的 segment 的 信 
息 。 如 果 缓 存 中 没有 关于 新 的 Segment 的 信息 ， 历 史 节 点 将 下 载 新 的 Segment 的 元 数据 信息 并 告知 Zookeeper。 元 数据 包含 新 的 Segment 在 深度 存储 (DeepStorage) 中 的 存储 位 置 ， 解 压缩 方法 和 处 理 
新 的 Segment 的 信息 。 一 旦 一 个 历史 节点 处 理 完成 一 个 segment， 历 史 节点 将 公布 可 以 提供 该 Segment 的 查询 服务 。 


























当 历史 节点 接收 到 查询 请 求 时， 首先 查 看 查询 时 间 段 的 Segment 在 本 地 缓存 中 是 否 已 经 存在 。 如 果 已 经 存 则 历史 节点 将 直接 从 本 地 缓存 将 相关 的 Segment 加 载 到 内 存 中 直接 进行 计算 。 如 果 不 存在 相关 
Segment， 则 从 深度 存储 中 下 载 相关 segment， 然 后 提供 查询 服务 。 当 历史 节点 第 一 次 启动 时 ， 历 史 节 点 将 从 本 地 缓存 目录 中 查找 所 有 能 被 发 现 的 segment， 直 接 加 载 并 提供 服务 。 这 个 特性 使 得 只 要 历 
史 节 点 在 线 就 能 很 快 提 供 查询 服务 。 






































历史 节点 启动 方式 : 


nohup java ‘cat conf/druid/historical/jvm.config | xargs. \ 
-cp conf/druid/_common:conf/druid/historical:lib/* \ 
io.druid.cli.Main server historical & 


5.Broker 代 理 节点 














代理 节点 提供 针对 Segment 的 路 由 查询 。 代 理 节点 从 Zookeeper 获 取 能 够 提供 Segment 查 询 服务 的 实时 节点 和 历史 节点 信息 ， 分 别 接收 实时 节点 和 历史 节点 的 查询 结果 并 将 结果 合并 返回 给 查询 客户 
端 。 代 理 节 点 提供 缓存 查询 结果 功能 ， 提 高 再 次 相同 查询 的 速度 。 对 于 小 集群 可 以 开启 此 功能 ， 比 较 大 的 集群 建议 在 历史 节点 缓存 查询 结果 数据 。 














(1) 转发 查询 


通常 Druid 中 的 查询 是 一 个 时 间 段 内 的 数据 查询 请 求 。Segment 按 照 时 间 段 划分 ， 尽 量 均匀 地 分 布 在 集群 中 。 在 Zookeeper 中 维护 有 关 历 史 和 实时 节点 的 信息 和 他 们 所 能 提供 服务 的 Segment。 针 对 
Zookeeper 中 的 每 一 个 数据 源 ， 代 理 节 点 建立 相关 segment 的 时 间 轴 和 为 这 些 Ssegments 提 供 服务 的 节点 列表 。 当 收 到 一 个 指定 数据 源 和 时 间 间 隔 的 查询 请 求 ， 代 理 节点 执行 查找 与 查询 数据 源 时 间 间 隔 相 











(2) 缓存 使 











代理 节点 缓存 采用 LRU 缓 存 失效 策略 。 代 理 节点 缓存 已 经 查询 过 的 结果 ， 缓 存 可 以 在 每 个 代理 节点 的 本 地 存储 ， 也 可 以 使 用 外 部 的 分 布 式 缓存 ， 如 Memcached。 每 次 一 个 代理 节点 接收 到 一 个 查询 请 
求 ， 首 先 将 这 个 查询 映射 到 一 组 segment， 这 些 Segment 结 果 的 子 集 可 能 在 缓存 中 已 经 存在 ， 在 缓存 中 已 经 存在 的 结果 可 以 被 直接 拉 取 。 对 于 一 些 缓存 中 不 存在 的 结果 ， 代 理 节 点 会 转发 查询 到 历史 节点 ， 
一 旦 历史 节点 返回 其 结果 ， 代 理 节点 将 结果 存储 到 缓存 中 。 实 时 节点 返回 的 结果 不 会 被 缓存 ， 实 时 节点 的 数据 是 不 断 变化 的 ， 缓 存 实时 节点 的 结果 没有 意义 。 















































代理 节点 启动 方式 : 


nohup java ‘cat conf/druid/broker/jvm.config | xargs. \ 
-cp conf/druid/_common:conf/druid/broker:1ib/* \ 
io.druid.cli.Main server broker & 


3.1.2 ” Segment 介绍 
































Druid 中 的 索引 以 按时 间 段 分 隔 的 Segment 文 件 形式 存储 。Segment 采 用 列 式 存储 方式 ， 在 查询 的 时 人 息 ，Druid 只 扫描 涉及 的 列 数 据 ， 不 需要 的 列 直接 跳 过 ， 降 低 了 拉 取 的 数据 量 ， 提 高 计算 速度 ， 降 
低 查询 延迟 。 

















Segment 列 存储 结构 有 三 个 基本 类 型 : 时 间 戳 列 、 维 度 列 、 指 标 列 ， 如 图 3-4 所 示 。 





Timestamp Dimensions Netrics 
| 
3252 
3455 


图 3-4 ”Segment 列 存储 结构 
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i 









































时 间 截 列 和 指标 列 : 这 两 列 使 用 整 型 或 者 浮 点 类 型 的 数组 结构 存储 ， 采 用 LZ4 的 压缩 算法 。 在 查询 时 只 用 解压 需要 数据 ， 拉 取 相关 的 行 ， 并 对 所 需要 的 数据 集 进行 聚合 操作 。 




















维度 列 和 其 他 两 列 不 同 ， 维 度 列 需要 支持 过 滤 和 分 组 操作 ， 所 以 每 一 个 维度 列 需 要 如 下 三 种 数据 结构 : 


1) 字典 结构 存储 着 一 些 键 值 对 的 对 应 关系 ， 通 常 键 的 类 型 为 字符 串 对 应 值 的 整 型 1D。 














2) 存储 列 值 的 列表 ， 采 用 第 1 项 中 的 字典 结构 进行 编码 。 





























3) 位 图 索引 标记 该 列 中 每 一 个 去 重 之 后 的 值 属于 哪 行 数据 。 


























字典 结构 只 是 简单 的 存储 字符 串 到 整 型 ID 的 映射 关系 ， 在 列表 和 位 图 索引 中 详细 但 又 简洁 的 存储 数据 值 。 位 图 索引 又 称 为 倒 排 索引 ， 可 以 执行 快速 过 滤 操 作 。 位 图 与 前 两 个 数据 结构 不 同 ， 前 两 个 在 数 
据 大 小 上 线性 增长 ， 位 图 部 分 的 大 小 是 数据 大 小 与 列 基数 的 乘积 。 位 图 具有 高 压缩 比 ，Druid 利 用 特别 适用 于 位 图 的 压缩 算法 进行 压缩 ， 例 如 RoaringBitmap 压 缩 。 在 第 2 项 中 介绍 的 值 的 列表 用 于 分 组 和 
TopN 查 询 ， 只 是 简单 的 基于 过 滤器 聚合 指标 查询 ， 不 需要 使 用 第 2 项 中 的 维度 值 列表 。 
































































































































Segments 最 终 会 存储 在 深度 存储 中 。 执 行 查询 操作 时 ， 通 过 历史 节点 首先 下 载 相应 的 Segment 到 历史 节点 的 本 地 磁盘 ， 然 后 将 磁盘 数据 加 载 到 内 存 。 如 果 历 史 节点 运行 失败 ， 它 将 不 能 对 外 提供 查询 
本 地 加 已 载 的 segment 的 服务 ， 但 是 这 些 Segment 还 是 存储 在 深度 存储 中 ， 其 他 的 历史 节点 还 可 以 继续 从 深度 存储 中 把 需要 的 Segments 下 载 到 本 地 磁盘 对 外 提供 服务 。 这 就 意味 着 ， 即 使 从 集群 中 移 除 所 
有 的 历史 节点 ， 也 能 够 保证 存储 在 Deep Storage 中 的 Segment 不 会 丢失 。 同 时 也 意味 着 即使 深度 存储 不 可 用 ， 历 史 节点 仍然 可 以 对 外 提供 服务 ， 因 为 历史 节点 已 经 从 深度 存储 中 将 相应 的 segment 下 载 到 
了 本 地 磁盘 。 




















在 集群 中 保存 一 个 Segment， 需 要 将 一 条 Segment 的 元 数据 添加 到 元 数据 存储 中 ， 这 条 元 数据 是 segment 的 自我 描述 ， 包 含 segment 的 模式 、 大 小 、 在 深度 存储 中 的 存储 位 置 。 协 调节 点 通过 查询 这 
些 元 数据 信息 了 解 能 够 对 外 提供 哪些 Segment 的 查询 服务 。 


1. 分 片 与 命名 约定 

















段 标示 符 通常 使 用 段 数据 源 、 间 隔 开 始 时 间 (1SO 8601 格 式 ) 、 间 隔 结束 时 间 (ISO 8601 格 式 ) 和 一 个 版 本 号 ， 此 外 如 果 数 据 分 片 超出 时 间 范 围 ， 该 segment 标识 符 也 会 包含 一 个 分 区 














咽 








在 历史 节点 存储 路 径 如 下 : 





$druid.segmentCache.1locations/dataource name/time interval/partition num/ 





一 个 Segment 由 三 个 文件 组 成 ， 分 别 是 : 
"xxxxx.smoosh: 包含 二 进 制 数据 的 文件 。 
-meta.smoosh: 记录 smoosh 文 件 内 容 的 元 数据 文件 。 


-version.bin: 占用 4 字 节 大 小 ， 记 录 当 前 Segment 版 本 号 。 
2. 优 化 配置 


在 基本 配置 里 ， 每 隔 一 段 时 间 创建 一 个 segment 文 件 ， 时 间 间 隔 粒度 通过 granularitySpec 配 置 项 中 的 segmentGranularity 属 性 来 设置 ， 默 认 粒度 为 天 。 为 了 使 Druid 能 够 提供 良好 的 查询 服务 ， 推 荐 设 
置 Segment 文 件 大 小 在 300MB ~ 700MB 之 间 。 如 果 Segment 文 件 大 小 大 于 推荐 的 大 小 ， 可 以 考虑 改变 时 间 间 隔 粒 度 或 者 调整 partitioningSpec 配 置 项 的 targetPartitionSize 属 性 值 重新 调整 分 区 大 小 ( 推 
荐 500 万 行 分 割 一 次 ) 。 
































3.1.3 ”容错 处 理 

















1) 历史 节点 采用 shared-nothing 架 构 ， 可 以 无 限 扩展 ， 即 使 一 个 历史 节点 挂 掉 ， 其 他 的 历史 节点 也 可 以 替代 它 ， 将 挂 掉 的 历史 节点 负责 的 Segment 分 配 到 其 他 正常 服务 的 历史 节点 ， 无 数据 丢失 风 


局 ， 











2) 协调 节点 可 以 配置 成 快速 失败 转移 的 方式 运行 ， 同 时 在 不 同 的 服务 器 启动 多 个 协调 节点 ， 只 有 一 个 协调 节点 作为 主 节点 提供 协调 管理 服务 ， 当 主 节点 失败 后 将 会 从 其 他 正常 运行 的 协调 节点 中 选 出 一 
个 主 节点 继续 提供 服务 。 如 果 没 有 正常 运行 的 协调 节点 ， 不 会 有 新 的 数据 进来 ， 也 不 会 对 现 有 的 数据 做 负载 均衡 ， 但 是 系统 仍然 能 够 继续 运行 。 








3) 代理 节点 可 以 在 多 个 服务 器 启动 多 个 代理 节点 并 行 运行 。 














4) 索引 服务 行 过 程 中 对 于 摄 入 的 任务 进行 备份 ， 其 中 的 coordination 具 有 快速 失败 转移 的 功能 。 





























5) 实时 节点 可 以 在 不 同 的 服务 器 启动 多 个 实时 节点 ， 并 行 处 理 相 同 的 流 ， 它 们 定期 在 磁盘 中 设置 检查 点 ， 最 终 把 这 些 检查 点 数据 推送 到 深度 存储 中 。 这 样 做 是 为 了 可 以 从 失败 中 恢复 数据 。 如 果 仅 将 数 
据 保存 在 本 地 磁盘 ， 可 能 会 出 现 本 地 磁盘 损坏 不 可 用 ， 造 成 磁盘 数据 丢失 的 情况 。 



































6) 如 果 深 度 存 储 系统 不 可 用 ， 新 的 数据 将 不 能 添加 到 集群 中 ， 但 是 集群 仍然 可 以 对 外 提供 服务 。 

















7) 如 果 元 数据 存储 不 可 用 ， 协 调 器 节点 将 无 法 从 系统 中 发 现 新 的 Segment， 但 协调 节点 仍然 可 以 通过 现在 已 经 存在 的 segment 视图 模式 操作 Segment。 


























8) 如 果 Zookeeper 不 可 用 ， 不 能 够 对 数据 拓扑 进行 更 改 ， 但 是 代理 节点 仍然 可 以 通过 最 近 的 数据 拓扑 视图 对 外 提供 查询 服务 。 











3.1.4 路 由 节点 








路 由 节点 根据 提前 设置 的 路 由 规则 将 不 同 的 查询 请 求 路 由 到 匹配 的 代理 节点 ， 最 终 将 代理 节点 返回 的 结果 返回 给 查询 客户 端 。 路 由 节点 的 使 用 有 优点 也 有 缺点 。 优 点 : 路 由 节点 在 整个 查询 过 程 中 充当 





















































1. 路 由 策略 








根据 路 由 策略 来 选择 查询 请 求 应 该 路 由 到 哪个 代理 。 在 使 用 了 路 由 策略 的 时 候 可 以 配置 多 个 ， 按 顺序 选择 采 











Druid 中 已 经 提供 的 路 由 策略 : 


(1) timeBoundary 








应 用 此 策略 则 所 有 TimeBoundary 类 型 的 查询 始终 路 由 到 最 高 优先 级 的 代理 。 








规则 定义 

















反 向 代理 的 角色 ， 提 供 了 查询 隔离 ， 使 得 对 比较 重要 数据 的 查询 不 会 受到 其 他 高 延迟 查询 或 者 相对 不 重要 数据 查询 的 影响 。 缺 点 : 在 代理 节点 外 层 再 添加 一 层 路 由 节点 增加 查询 转发 次 数 ， 增 加 返回 查询 结 
果 交 换 次 数 ， 降 低 查 询 性 能 。 在 使 用 路 由 节点 的 时 候 要 考虑 数据 源 的 存储 量 级 是 否 需要 ， 如 果 常 规 查询 可 以 很 好 的 满足 要 求 ， 建 议 不 使 用 查 

















哪 种 路 由 策略 ， 当 排 在 靠 前 的 策略 匹配 成 功 则 不 再 向 后 查找 匹配 其 他 的 策略 。 下 面 介绍 














"type":"timeBoundary" 





(2) priority 














优先 级 小 于 minPriority 属 性 值 的 查询 将 被 路 由 到 最 低 优先 级 的 代理 。 优 先 级 大 于 maxPriority 属 性 值 的 查询 将 被 路 由 到 最 高 优先 级 的 代理 。 默 认 情况 下 ，minPriority 属 性 值 为 0，maxPriority 属 性 值 为 








1。 如 果 查 询 的 优先 级 为 0， 则 查询 将 跳 过 优先 级 选择 逻辑 。 


规则 定义 : 





{ 
"type":"priority", 
"minPriority":0, 
"maxpriority":l 


} 





(3) JavaScript 





























使 用 JavaScript 函 数 定义 路 由 策略 ， 将 要 执行 的 配置 和 查询 对 象 作为 参数 传 入 函数 ， 规 则 匹配 成 功 ， 
供 的 样 例 代码 如 下 : 





该 函数 定义 的 路 由 策略 含义 : 将 包含 三 个 以 上 聚合 查询 的 查询 请 求 路 由 到 最 低 优先 级 的 代理 节点 。 


返回 路 由 到 的 目标 代理 服务 名 称 ， 如 果 没 有 匹配 成 功 则 返回 null， 表 示 路 由 到 默认 代理 。 官 方 文档 提 











"type":"javascript", 
"function":"function (config, query) { 
if (query.getAggregatorSpecs && query.getAggregatorSpecs().size() >= 3){ 
var size = config.getTierToBrokerMap () .values () .size(); 
(Size > DT 
return config.getTierToBrokerMap() .values () .toArray () [size-1] 
}else{return config.getDefaultBrokerServiceName ()} 
}else{return null} 
}" 
} 





2. 关 键 配置 





druid.router.defaultBrokerServiceName 

















由 于 没有 匹配 到 路 由 代理 、 匹 配 的 代理 连接 失败 等 情况 ， 使 用 默认 代理 。 























druid.router.tierToBrokerMap 





代理 节点 与 历史 节点 层 之 间 的 映射 关系 ， 如 : {"_default_tier":"druid:broker-cold"}。 





druid.router.coordinatorServiceName 











Coordinator 节 点 的 服务 名 称 ， 与 协调 节点 配置 的 值 相同 。 默 认 值 druid/coordinator。 





druid.router.pollPeriod 


按照 固定 周期 检查 是 否 有 新 的 规则 更 新 。 默 认 值 PT1M 表 示 一 分 钟 轮 询 一 次 。 


druid.router.strategies 




















路 由 策略 列表 ， 值 为 JJON 数 组 ， 可 以 包含 多 个 JSON 对 象 表示 的 自 定义 路 由 策略 ， 排 列 顺序 很 重要 ， 


[{"type":"timeBoundary"},{"type":"priority"}]。 









































采用 从 前 往 后 的 顺序 选择 路 由 策略 ， 当 靠 前 的 策略 匹配 成 功 则 不 再 向 后 查找 。 默 认 值 








3. 路 由 节点 使 用 样 例 
例如 ， 最 近 一 个 月 的 最 新 数据 被 加 载 到 历史 节点 分 层 之 后 的 热 数据 层 ， 历 史 节 点 分 层 之 后 的 冷 数据 层 存储 全 部 数据 。 配 置 两 种 不 同 的 代理 节点 ， 处 理 热 数据 查询 请 求 的 代理 节点 将 查询 请 求 转发 到 热 数 
据 层 ， 处 理 冷 数据 查询 请 求 的 代理 节点 将 查询 请 求 转发 到 冷 数据 层 。 如 果 发 生 任何 异常 或 者 网 络 问题 将 查询 请 求 统一 转发 到 冷 数据 节点 ， 样 例 配置 如 下 : 

















1) 历史 节点 配置 ， 对 不 同 的 历史 节点 分 层 。 


配置 文件 runtime.properties 





# 配 置 热 数据 层 ， 如 果 不 配 置 则 默认 值 _default_tier。 
druid.server.tier=hot 
# 数 据 层 优先 级 ， 默 认 从 0 开始 ， 值 越 大 则 优先 级 越 高 


druid.server.Priority=10 








2) 代理 节点 配置 ， 设 置 代理 节点 的 服务 发 现 名 称 。 





druid.service= druid:broker-hot 
druid.service= druid:broker-cold 





3) 路 由 节点 配置 


JVM 相 关 配 置 ， 配 置 文件 : jvm.config。 





-server 
-Xmxl13g 

-Xms13g 

-XX:NewSize=256m 

—XX:MaxNewSize=256m 

-XX:+UseConcMarkSweepGC 

-XX:+PrintGCDetails 

~XX:+PrintGCTimeStamps 

-XX:+UseLargePages 
-XX:+HeapDumpOnOutOfMemoryError 
-XX:HeapDumpPath=/mnt/galaxy/deploy/current/ 
-Duser.timezone=UTC+0800 

-Dfile.encoding=UTF-8 

-Djava.io.tmpdir=/tmp 

# JMX 相 关 配 置 

-Dcom. sun.management .jmxremote .port=17071 

-Dcom. sun.management .jmxremote.authenticate=false 
-Dcom. sun.management .jmxremote.ssl=false 





路 由 运行 相关 配置 ， 配 置 文件 runtime.properties。 





# 绑 定 运行 IP 

druid.host=#{IP ADDR} 

# 监听 端口 号 呈 

druid.port=9080 

# 服务 发 现 名 称 

druid.service=druid/router 

# 处 理 线程 妆 

druid.processing.numThreads=1 

# 由 于 没有 匹配 到 路 由 代理 、 匹 配 的 代理 连接 失败 等 情况 ， 使 用 默认 代理 。 
druid.router.defaultBrokerServiceName=druid:broker-cold 
# 协调 节点 服务 名 称 
druid.router.coordinatorServiceName=druid:coordinator 


# 代理 节点 与 历史 节点 层 之 间 的 映射 关系 











druid.router.tierToBrokerMap={"hot":"druid:broker-hot"," default tier":"druid: 


# 路 由 策略 
druid.router.strategies=[{"type":"timeBoundary"}, {"type":". 
# HTTP 连 接 数 

druid.router.http.numConnections=50 
druid.router.http.readTimeout=PT5M 

# 路 由 处 理 HTTP 请 求 的 最 大 线程 数 
druid.router.http.numMaxThreads=100 

# 处 理 HTTP 请 求 的 线程 数 

druid.server.http.numThreads=100 


priority"}] 


broker-cold"} 





4) 启动 路 由 节点 





nohup java ‘cat conf/druid/broker/jvm.config | xargs. \ 
-cp conf/druid/_common:conf/druid/broker:1ib/* \ 
io.druid.cli.Main server routerg 





3.2 ”集群 部 署 


3.2.1 “集群 规划 


Coordinator 协 调节 点 负责 segment 管理 和 负载 均衡 。Overlord 统 治 节点 负责 接收 、 分 发 索引 任务 ， 可 以 部 署 在 配置 一 般 的 服务 器 上 。MiddleManager 节 点 接收 索引 任务 、 管 理 Peon 苦 工 执行 索引 任 
务 ， 需 要 CPU 和 内 存 配置 好 一 点 的 服务 器 。Historical 历 史 节 点 提供 Segment 的 存储 和 查询 ， 大 容量 硬盘 、 内 存 和 高 性 能 的 CPU 可 以 使 历史 节点 存储 更 多 的 Segment， 减 少 频繁 从 深度 存储 中 拉 取 


Segment， 在 内 存 中 缓存 更 多 的 Segment 和 查询 结果 ， 能 够 明显 提高 查询 速 / 


CPU 和 内 存 。 


为 了 提高 系统 的 容错 能 力 ， 统 治 节点 (OverlordNode) 、 协 调节 点 (CoordinatorNode) 在 两 台 不 同 的 











台 不 同 的 服务 器 上 分 别 启动 两 个 进程 。 历 史 节 点 (HistoricalNode) 采 


详细 部 署 方案 如 表 3-1 所 示 。 








度 ， 如 果 资 源 充 足 ， 硬 盘 推荐 使 有 




















分 布 式 shared-nothing 架 构 ， 可 以 无 限 扩 | 
计算 能 力 。 如 果 资 源 充足 ， 所 有 节点 都 可 以 通过 部 署 多 台 服 务 器 来 提高 系统 的 容错 、 存 储 和 计算 能 


表 3-1 





展 ， 通 过 将 多 台 机 器 部 署 为 历史 节点 ， 轻 松 扩 


SSD。Broker 节 点 需要 接收 查询 请 求 、 结 果 数据 合并 、 缓 存 等 ，Broker 节 点 需要 高 性 能 的 


民 务 器 上 分 别 启动 两 个 进程 。 为 了 降低 代理 节点 (BrokerNode) 的 查询 负载 ， 代 理 节 点 在 两 





展 缓存 Segment 的 空间 ， 提 升 Druid 的 查询 


软件 版 本 


192.168:1.1 


操作 系统 CentOS6.6 192.168.1.2 


JDK1.7 版 本 
Maven3.3 版 本 





192.168.1.3 
Scala2.10 版 本 
CPU 32 核 主 频 2.40GHz 99168.1 二 
内 存 256G 时 于 
硬盘 11T 
192.168.1.5 
192.168.1.6 
3.2.2 ”配置 安装 
1. 下 载 安装 文件 并 解压 


安装 目录 : /data/soft， 安 装 Druid0.9.0 版 本 。 








PP | 名 


hadoop01 


hadoop02 


hadoop03 


hadoop04 


hadoop05 


hadoop06 


节点 类 型 
Overlord 
Coordinator 
Overlord 
Coordinator 
Broker 
Historical 
MiddleManager 
Historical 
MiddleManager 
Historical 
MiddleManager 
Historical 
Broker 





curl -0 http://static.druid.io/artifacts/releases/druid-0.9.0-bin.tar.gz 
tar -xzf druid-0.9.0-bin.tar.gz 





2. 解 压 之 后 的 目录 结构 如 下 : 





1) bin/ 单 机 模式 启动 脚本 


tt 


2) conf/* 集 群 模 式 下 的 配置 文件 目录 


3 


conf-quickstart/* 单 机 快速 启动 的 配置 文件 目录 


4) extensions/*Druid 扩 展 文件 





5) hadoop-dependencies/*Druid 的 Hadoop 依 赖 














6) lib/*Druid 引 用 的 jar 包 








7) quickstart/* 单 机 快速 启动 的 JSON 格 式 执行 文件 


3. 创 建 软 连接 并 设置 环境 变量 


创建 软 连接 ， 方 便 之 后 升级 。 





ln -s /data/soft/druid-0.9.0 /usr/local/druid 


设置 环境 变量 





Vim /etc/profile 
export DRUID HOME=/usr/local/druid 





环境 变量 生效 


Source /etc/profile 








4 .创建 运行 用 户 账号 和 组 




















集群 中 部 署 的 所 有 框架 组 件 统一 使 用 hadoop 账 号 运行 ， 如 果 已 经 有 运行 账号 和 组 ， 请 跳 过 此 步 台 。 











groupadd hadoop 
useradd -m -g hadoophadoop 





5. 下 载 依赖 组 件 








元 数据 存储 : 选用 MySQL。 











流 数 据 来 源 : 对 接 Kafka 加 载 流 数 据 。 


UV 计算 : 使 用 datasketches。 


Deepstorage 深 度 存 储 : Hadoop2.6 





依赖 组 件 默认 会 下 载 到 安装 目录 下 的 extensions 和 hadoop-dependencies 目 录 下 。 


在 Druid 安 装 目 录 执 行 如 下 命令 下 载 依赖 组 件 : 





java -classpath "/usr/local/druid/lib/*" io.druid.cli.Main tools pull-deps --defaultVersion 0.9.0 --clean 
-c io.druid.extensions:druid-kafka-extraction-namespace 

-Cc io.druid.extensions:druid-kafka-eight 

-c io.druid.extensions:druid-histogram 

-c io.druid.extensions:druid-hdfs-storage 

-Cc io.druid.extensions:druid-datasketches 

-Cc io.druid.extensions:druid-namespace-lookup 

-c io.druid.extensions:mysql-metadata-storage 

-h org.apache.hadoop:hadoop-client:2.6.0 





下 载 完 依赖 组 件 之 后 ， 需 要 在 conf/druid/_common/common.runtime.properties 公 共 配 置 文 件 中 添加 依赖 : 





druid.extensions.loadList=["druid-hdfs-storage", "druid-histogram", "mysql-metadata-storage", "druid-datasketches"] 
druid.extensions.hadoopDependenciesDir=/usr/local /druid/hadoop-dependencies 





6. 配 置 文件 




















使 用 HDFS 作 为 DeepStorage 深 度 存 储 ， 使 用 MapReduce 执 行 批量 静态 数据 摄 入 任务 需要 将 Hadoop 相 关 配 置 文件 $4HADOOP_HOME/etc/hadoop/core-site.xml、 

















site.xml、yarn-site.xm| 拷 贝 到 $DRUID_HOME/conf/druid/_common 目 录 下 。 


1) 公共 配置 文件 $4DRUID_HOME/conf/druid/_common/common.runtime.properties。 


# Druid 中 加 载 的 依赖 组 件 

druid.extensions.loadList=["druid-hdfs-storage", "druid-histogram", "mysql-metadata-storage", "druid-datasketches"] 
# 如 果 使 用 不 同 的 Hadocp 版 本 ， 需 要 执行 Hadoop 客 户 端 jar 文 件 路 径 

# druid.extensions.hadoopDependenciesDir=/my/dir/hadoop-dependencies 

# 启动 时 记录 所 有 运行 时 属性 日 志 

druid.startup.1ogging.LogProperties=true 

# Zookeeper 连 接 配置 

druid.zk.service.host=hadoop01:2181,hadoop01:2181,hadoop01:2181 

# Druid 在 Zookeeper 中 的 基础 路 径 

druid.zk.paths.base=/druid 

# 在 Zookeeper 的 /druid 基 础 路 径 下 创建 如 下 znode 

# [listeners, segments, announcements, indexer, coordinator, servedSegments, discovery, 

# loadQueue] 

# Zookeeper 连 接 超 时 时 间 ， 单 位 毫秒 

druid.zk.service.sessionTimeoutMs=30000 

druid.zk.paths.announcementsPath=${druid.zk.paths.base}/announcements 

druid.zk.paths.1liveSegmentsPath=$ {druid.zk.paths.base}/segments 

druid.zk.paths.1loadQueuePath=$ {druid.zk.paths.base}/loadQueue 

druid.zk.paths.coordinatorPath=$ {druid.zk.paths.base}/coordinator 

芝 家 和 人 和 .ServedSegmentsPath=${druid.zk.paths.base}/servedSegments 

每 次 查询 请 求 记录 日 志 的 方 
noop: 不 发 送 任何 查询 i 
file: 将 查询 请 求 相关 指 
emitter: 将 查询 请 求 相关 指标 发 ; 到 外 部 
druid.request. logging. type=emitter 
druid.request.logging.feed=druid requests 


# Druid 提 供 kT 了 三 种 射 器 实现 
从 则 noop 为 默认 值 )。 


空 指标 《如 
站 标 通 过 ]og4 

# ep rr A 
druid.emitter=http 
# 可 选 日 志 级 别 debug，info，warn, error 
druid. er 9: jging. logLevel=info 
# 负责 发 送 监 控 指标 的 URL， 所 有 发 送出 去 的 监控 指标 都 使 用 JSON 格 式 表示 。 
druid.emitter.http.recipientBaseUrl=EMITTER URL:PORT 
# 元 数据 存储 到 MySQL 中 
druid.metadata.storage.type=mysql 
druid.metadata. storage.connector.connectURI=jdbc:mysql://127.0.0.1:3306/druid 
druid.metadata.storage.connector.user=druid 
druid.metadata.storage.connector.password=druid 
# Deep storage 深 度 存储 使 用 HDFS 
druid.storage.type=hdfs 
druid.storage.storageDirectory=hdfs://nnl:9000/data/druid/segments 
# overlord 和 coordinator 服 务 发 现 
druid.selectors.indexing.serviceName=druid/overlord 
druid.selectors.coordinator.serviceName=druid/coordinator 
: Druid 通 过 JavaScript 函 数 支持 动态 运行 时 扩展 ， 设 置 为 true 将 禁用 JavaScript 功 能 。 

# 会 影响 JavaScript 解 析 器 、filter、extractionFn、aggregator、and post-aggregator 的 使 用 。 
druid.javascript.dqisabledq=false 
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hdfs-site.xml、 


mapred- 





2) Historcal 历 史 节 点 相关 配置 文件 $4DRUID_HOME/conf/druid/historical/jvm.config 和 runtime.properties。 


JVM 相 关 配 置 ， 配 置 文 件 : jvm.config。 





-server 
# 最 大 堆 内 存 大 小 12G 

—Xmx12g 

# 最 小 境内 存 大 小 12G 

—Xms12g 

# 年 经 代 大 小 6G 和 最 大 年 轻 代 大 小 6G 

-XX:NewSize=6g 

—XX:MaxNewSize=6g 

# 最 大 推 外 内 存 大 小 32G 

—XX:MaxDirectMemorySize=32g 

# 使 用 CMS 垃圾 收集 器 

~—XX:+UseConcMarkSweepGC 

-XX:+PrintGCDetails 

—XX:+PrintGCTimeStamps 

# Droid 赎 认 使 用 DTc 时 闻 ， 设置 使 用 东 八 区 本 地 时 间 。 

-Duser.timezone=UTC+0800 

-Dfile.encoding=UTF-8 
-Djava.util.logging.manager=org.apache.logging.10g4j .jul.LogManager 
-Djava.io.tmpdir=/tmp 





@@ 注 意 设置 -XX:MaxDirectMemory>=numThreadsxsizeBytes， 和 否则 Historcal 节 点 会 启动 失败 。 


Historcal 运 行 相关 配置 ， 配 置 文件 runtime.properties。 





druid.service=druid/historical 

# Historcal 进 程 运行 节点 ITP， 在 不 同 的 节点 运行 拷贝 一 份 此 配置 文件 ， 修 改 绑 定 IP 即 可 。 
druid.host=192.168.1. 
# Hisorcal 进 程 运行 监听 的 端口 号 

druid.port=9094 

# 协调 节点 分 配给 历史 节点 的 Segment 在 本 地 文件 系统 中 缓存 的 路 径 ， 可 以 配置 多 个 路 
# 径 ， 增 加 历史 节点 缓存 Segment 的 能 力 。maxSize 指 定 路 径 大 小 为 3T。 











druid.segmentCache.1locations=[ 

{"path":"/datal/druid/historical/segment cache", "maxSize": 3000000000000}, 
{"path": "/data2/druid/historical/segment cache", "maxSize": 3000000000000}] 
# 并 行 处 理 Seqment 的 线程 数 ， 建 议 该 值 设 置 为 num cores - 1 (默认 值 ) ， 这 个 建议 设置 

# 的 原因 是 在 系统 高 负载 的 情况 下 ， 后 台 仍然 有 一 个 核 可 以 保持 与 2ookeeper 连 接 下 载 

# 相关 的 Sement。 如 果 只 有 一 个 核 则 该 值 配 置 为 1。 

druid.processing.numThreads=31 

# 处 理 HTTP 请 求 的 线程 数 

druid.server.http.numThreads=50 

# 缓存 相关 

# 客户 端 查询 结果 在 Historcel 端 缓存 ， 加 快 下 次 相同 查询 的 速度 。 
druid.historical.cache.useCache=true 

druid.historical .cache.populateCache=true 

# Historcal 执 行 聚合 计算 中 间 结 果 缓 冲 区 大 小 ， 默 认 1GB。 
druid.processing.buffer.sizeBytes=1073741824 

# 查询 相关 配置 

# groupby 查 询 最 大 结果 数 ， 查 询 结果 超过 该 值 则 无 结果 返回 ， 抛 出 异常 。 
druid.query.groupBy.maxResults=50000000 

# 监控 指标 相关 

# 每 隔 1 分 钟 发 射 一 次 监控 指标 

druid.monitoring.emissionPeriod=PT1m 
druid.monitoring.monitors=["io.druid.server.metrics.HistoricalMetricsMonitor", "com.metamx.metrics.JvmMonitor"] 











3) Coordinator 协 调节 点 相关 配置 文件 $4DRUID_HOME/conf/druid/coordinator/jvm.config 和 0runtime.properties。 


JVM 相 关 配 置 ， 配 置 文件 : jvm.config。 





-server 

-Xmx10g 

-Xms10g 

-XX:NewSize=512m 
—XX:MaxNewSize=512m 

用 CMS 垃圾 收集 器 
-XX:+UseConcMarkSweepGC 
-XX:+PrintGCDetails 
-XX:+PrintGCTimeStamps 
-Duser .timezone=UTC+0800 
-Dfile.encoding=UTF-8 
-Djava.util.logging.manager=org.apache.logging.10g4j .jul.LogManager 
-Djava.io.tmpdir=/tmp 








Coordina 运 行 相关 配置 ， 配 置 文件 runtime.properties。 





druid.service=druid/coordinator 

# Coordinator 进 程 运行 节点 IP， 在 不 同 的 节点 运行 拷贝 一 份 此 配置 文件 ， 修 改 绑 定 IP 即 可 。 
druid.host=192.168.1.1 

# Coordinator 进 程 运行 监听 的 端口 号 

druid.port=9093 

druid.coordinator.startDelay=PT30S 

druid.coordinator .period=PT30S 





4) overlord 统 治 节点 相关 配置 文件 $4DRUID_HOME/conf/druid/overlord/jvm.config 和 runtime.properties。 


JVM 相 关 配 置 ， 配 置 文件 : jvm.config。 





-server 

—Xmx4g 

-Xms4g 

-XX:NewSize=256m 
—XX:MaxNewSize=256m 

# 使 用 CMS 垃圾 收集 器 
-XX:+UseConcMarkSweepGC 
-XX:+PrintGCDetails 
-XX:+PrintGCTimeStamps 
-Duser .timezone=UTC+0800 
-Dfile.encoding=UTF-8 
-Djava.util.logging.manager=org.apache.logging.10g4j .jul.LogManager 
-Djava.io.tmpdir=/tmp 





overlord 运 行 相关 配置 ， 配 置 文件 runtime.properties。 





druid.service=druid/overlord 

# overlord 进 程 运 行 监听 的 端口 号 

druid.port=9091 

统治 节点 使 用 自动 缩放 MiddleManager 相 关 配置 

# druid.indexer.autoscale.doAutoscale=true 

# druid.indexer.autoscale.strategy=ec2 

# druid.indexer.autoscale.workerIdleTimeout=PT90m 
# 

# 

# 


井 


druid.indexer.autoscale.terminatePeriod=PT5M 
druid.indexer.autoscale.workerVersion=0 
远程 运行 模式 
druid.indexer.runner.type=remote 
druid.indexer.runner.minWorkerVersion=0 
# 将 所 有 任务 状态 存储 到 元 数据 存储 中 
druid.indexer.storage.type=metadata 
# 索引 任务 日 志 写 入 到 本 地 文件 系统 
# druid.indexer.1logs.type=log 
# druid.indexer.logs.directory=/usr/local/druid/running dir/logs 
# 如 果 索 引 服 务 采 用 远程 模式 运行 ， 则 索引 任务 日 志 必 须 保存 到 HDFS、53 等 存储 中 。 
druid.indexer.1ogs.type=hdfs 
druid.ingdexer.1logs.directory=/data/druid/indexer/1logs/overlord 








5) MiddleManager 中 间 管 理 节点 相关 配置 文件 $DRUID_HOME/conf/druid/middleManager/jvm.config 和 runtime.properties。 


JVM 相 关 配 置 ， 配 置 文件 : jvm.config。 





-server 

—Xmx64m 

-Xms64m 

-XX:+UseConcMarkSweepGC 

-XX:+PrintGCDetails 

-XX:+PrintGCTimeStamps 

-Duser.timezone=UTC+0800 

-Dfile.encoding=UTF-8 
-Djava.util.logging.manager=org.apache.logging.10g4j .jul.LogManager 
-Djava.io.tmpdir=/tmp 





MiddleManager 运 行 相关 配置 ， 配 置 文件 runtime.properties。 





druid.service=druid/middleManager 

druid.host=192.168.1.3 

druid.port=9092 

druid.indexer.task.hadoopWorkingPath=/data/druid/tmp/druid-indexing 
druid.indexer.task.defaultHadoopCoordinates=[org.apache.hadoop:hadoop-client :2.6.0] 
# 如 果 索 引 服务 采用 远程 模式 运行 ， 则 索引 任务 日 志 必须 保存 到 HDFS、S3 等 存储 中 。 


druid.indexer.1ogs.type=hqdfs 

druid.indexer.logs.directory=/data/drujd/indexer/1ogs/ middle manager 

# MiddleManager 能 接收 的 最 大 任务 数 ， 默 认 值 为 可 用 处 理 器 数 减 1。 

druid.worker.capacity=31 

# The IP of the worker 

druid.worker.ip=192.168.1.3 

druid.worker .version=0 

# peons 资 源 配 置 

druid.indexer.runner.javaOpts=-server -Xmx3g -Xms3g -XX:PermSize=256m 

—XX:+UseG1GC -XX:MaxGCPauseMillis=100 

—XX:+PrintGCDetails -XX:+PrintGCTimeStamps 

# 索引 任务 临时 工作 目录 

druid.indexer.task.baseTaskDir=/usr/local/druid/running dir/peons/task/ 

# Peon properties 
druid.indexer.fork.property.druid.monitoring.monitors=["com.metamx.metrics.JvmMonitor"] 
druid.indexer.fork.property.druid.processing.buffer.sizeBytes=100000000 
druid.indexer.fork.property.druid.processing.numThreads=1 

# Pon 缓存 Segment 在 术 地 柄 盘 有 路径 ， 可 以 配置 多 个 路 径 ， 提 供 缓存 能 力 。 
druid.indexer.fork.Property.druid.segmentCache.locations=[{"path": "/usr/local/druid/running dir/peons/zk druid", "maxSize": 300000000000}] 
druid.indexer.fork.property.druid.server.http.numThreads=50 
druid.indexer.fork.property.druid.storage.type=hdfs 

# Peons 创 建 Segment 完 成 存储 到 HDFS 路 径 
druid.indexer.fork.property.druid.storage.storageDirectory=hdfs://nnl:9000/data/druid/pens/storage 





6) Broker 代 理 节点 相关 配置 文件 $4DRUID_HOME/conf/druid/coordinator/jvm.config 和 runtime.properties。 


JVM 相 关 配 置 ， 配 置 文 件 : jvm.config。 





-server 

—Xmx25g 

-Xms25g 

-XX:NewSize=6g 
—XX:MaxNewSize=6g 
—XX:MaxDirectMemorySize=64g 
-XX:+UseConcMarkSweepGC 
-XX:+PrintGCDetails 
—XX:+PrintGCTimeStamps 
-Duser.timezone=UTC+0800 
-Dfile.encoding=UTF-8 
-Djava.util.logging.manager=org.apache.logging.10g4j .jul.LogManager 
-Djava.io.tmpdir=/tmp/broker 





Broker 运 行 相关 配置 ， 配 置 文 件 runtime.properties。 





druid.service=druid/broker 
druid.host=192.168.1.6 

druid.port=9095 

# HTTP server threads 
druid.broker.http.numConnections=20 
druid.broker.http.readTimeout=PT5M 
druid.server.http.numThreads=50 

# Processing threads and buffers 
druid.processing.buffer.sizeBytes=2147483647 
druid.processing.numThreads=31 

# 查询 缓存 相关 设置 

# druid.broker.cache.useCache=true 

# druid.broker.cache.populateCache=true 
# druid.cache.type=local 

# druid.cache.sizeInBytes=536870912 





@ 注 意 设置 -XxX:MaxDirectMemory>=numThreadsxsizeBytes， 否 则 Druid 会 启动 失败 。 


为 了 降低 查询 的 负载 可 以 在 多 个 服务 器 部 署 多 个 broker。 


7. 启 动 各 节点 


1) 启动 协调 节点 (CoordinatorNode) : 





nohup java ‘cat conf/druid/overlord/jvm.config | xargs”\ 
-cp conf/druid/_common:conf/druid/coordinator:1ib/* \ 
io.druid.cli.Main server coordinatorg 





2) 启动 统治 节点 (OverlordNode) : 





nohup java ‘cat conf/druid/overlord/jvm.config | xargs. \ 
-cp conf/druid/_common:conf/druid/overlord:1ib/* \ 
io.druid.cli.Main server overlordg 





3) 启动 历史 节点 (HistoricalNode) : 





nohup java ‘cat conf/druid/historical/jvm.config | xargs. \ 
-cp conf/druid/_common:conf/druid/historical:lib/* \ 
io.druid.cli.Main server historicalg 





4) 启动 中 间 管 理 节点 (MiddleManagerNode) : 





nohup java ‘cat conf/druid/middleManager/jvm.config | xargs. \ 
-cp conf/druid/_common:conf/druid/middleManager:1ib/* \ 
io.druid.cli.Main server middleManager & 





5) 启动 代理 节点 (BrokerNode) : 





nohup java “cat conf/druid/broker/jvm.config | xargs. \ 
-cp conf/druid/_common:conf/druid/broker:1ib/* \ 
io.druid.cli.Main server brokerg 





访问 Coordinator WebUI192.168.1.1:9093， 如 图 3-5 所 示 ， 查 看 集群 状态 ， 数 据 源 列 表 ， 各 数据 源 详细 信息 ， 索 引 任 务 状态 等 。 在 Coordinator WebUl 中 可 以 设置 每 个 数据 源 中 Segment 的 加 载 及 删 
除 规则 。 
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图 3-5 查看 集群 状态 





访问 Overlord WebUl 192.168.1.2:9091， 如 图 3-6 所 示 ， 可 以 查看 运行 的 任务 ， 待 处 理 任务 ， 等 待 分 配 Worker 任 务 ， 已 经 完成 的 任务 ，worker 信 息 等 。 











Coordinator Console 


Running Tasks 
Pending Tasks - Tasks waiting to be assigned to a worker 


Waiting Tasks - Tasks waiting on locks 


Complete Tasks - Tasks recently completed 





图 3-6 ”查看 运行 的 任务 

















本 章 从 Druid 的 架构 设计 讲解 Druid 各 组 件 协调 使 用 的 具体 过 程 ， 包 括 数 据 摄 入 和 查询 流程 、 各 组 件 容错 处 理 、 路 由 查询 等 。 通 过 实际 操作 讲解 Druid 集 群 规划 和 部 署 过 程 。 通 过 本 章 的 学 习 可 以 从 理论 
和 实践 两 方面 充分 理解 Druid 的 工作 原理 。 




















第 4 章 ”Druid 数 据 摄 入 





Druid 支 持 批量 数据 摄 入 和 实时 流 数据 摄 入 两 种 数据 摄 入 方式 。 其 中 ， 批 量 数据 报 入 可 周期 性 地 通过 Hadoop 批 量 报 入 静态 数据 ;实时 流 数 据 摄 入 方式 又 分 成 两 种 ， 即 Stream Pull 和 Stream Push。 本 








章 将 详细 介绍 不 同类 型 的 数据 摄 入 方式 。 


4.1 模式 设计 
本 书 主要 介绍 Druid 数 据 模式 的 设计 方法 ， 及 如 何 设计 正确 的 数据 摄 入 模式 。 


4.1.1 设计 概述 














Druid 报 入 规则 包含 三 个 主要 属性 配置 。“dataSchema” 属 性 定义 数据 摄 入 模式 (必须 配置 项 ) ， 其 中 包括 数据 源 名 称 (“dataSource”) 、 数 据 解析 方式 (“parser”) 、 指 标 计算 规则 
































(“metricsSpec”) 、 粒 度 规则 (“granularitySpec”) 。“ioConfig” 属 性 定义 报 入 的 数据 源 (必须 配置 项 ) ， 常 用 的 类 型 有 “realtime” 实 时 流 数据 摄 入 和 “hadoop” 批 量 静态 数据 摄 入 。 





“tuningConfig” 属 性 定义 数据 报 入 过 程 中 的 各 种 优化 配置 (可 选 配置 项 ) 。 





数据 摄 入 规则 定义 格式 : 


"spec": { 
"dataschema": { 
"dataSouree™s "my 
"parser"; {..}, 
"metricsSpec": [...], 
"granularitySpec": 1{..} 
Ey 
"ioConfig": {http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...}, 
"tuningConfig": {http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/...} 
} 





Druid 摄 入 的 数据 需要 包含 timestamp (时 间 戳 ) ，dimension (维度 ) ，measure (指标 ) 三 种 类 型 ,下面 详细 介绍 Druid 报 入 数据 模式 设计 。 








1) Druid 中 的 每 行 数据 必须 有 一 个 时 间 戳 ， 数 据 是 按时 间 划 分 的 ， 每 个 查询 都 有 一 个 时 间 过 滤器 。 查 询 结果 也 可 以 通过 时 间 划 分 ， 比 如 分 钟 、 小 时 、 天 等 。 

















2) 维度 字段 主要 用 于 作为 过 滤 条 件 或 者 在 “group by” 查 询 时 作为 分 组 字段 。 维 度 字段 数据 类 型 为 字符 串 类 型 。 

















3) 指标 字段 是 聚合 字段 ， 指 标 字段 的 类 型 一 般 是 数字 类 型 、 整 型 或 者 浮 点 型 等 ， 也 可 以 存储 复杂 的 对 象 ， 如 HyperLogLog 草 苞 


四 

















1. 高 基数 维度 使 用 设计 
























































在 实际 应 用 中 我 们 有 时 需要 使 用 UUID 或 者 USER_ID 等 唯一 ID 计算 UV 等 指标 ， 这 种 高 基数 维度 的 使 用 将 无 法 体现 roll-up 效 果 ， 并 且 严 重 影响 压缩 性 能 ， 占 用 更 多 的 存储 空间 。 实 践 中 往往 不 需要 对 唯一 
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1D 的 精确 计算 ， 在 Druid 中 使 用 高 基数 维度 的 优化 方法 是 使 用 hyerUnique 聚 合 ， 存 储 高 基数 维度 的 草图 ， 并 且 把 草图 作为 聚合 的 一 部 分 ， 明 显 降低 存储 空间 的 使 用 ， 有 效 地 提高 了 聚合 查询 性 能 。 使 












































J 








如 下 : 


(1) 数据 摄 入 端 











在 数据 摄 入 规则 的 指标 规则 中 定义 对 高 基 维 字段 使 用 hyperUnique， 样 例 规则 代码 如 下 : 














"metricsSpec" : [ 

"type" : "count"， 
"name" : "Count" 

}, 

{ 
"type" : "hyperUnique", 
"name" : "user id" 
"fieldName" : Wuser id" 











方法 














(2) 数据 查询 端 








在 查询 规则 中 定义 查询 聚合 函数 使 用 hyperUnique， 样 例 规则 代码 如 下 : 

















"aggregations": [{ 
"type": "hyperUnique", 
"name": "user id", 
"fieldName": "user id" 
2. 谋 套 维度 使 用 设计 





























Druid 暂 时 不 支持 谋 套 维度 ， 如 果 摄 入 的 数据 中 包含 谋 套 维度 ， 需 要 对 谋 套 维度 进行 扁平 化 处 理 (将 谋 套 维度 展开 ) 。 以 JSON 格 式 的 嵌 套 维度 数据 为 例 : 需要 加 载 到 Druid 中 的 谋 套 数据 {“people”: 





{ “age”:30,“name”:“xiaoming”,“city”:“beijing”】}}， 在 Druid 创 建 索 引 之 前 需要 对 数据 进行 扁平 化 处 理 ， 处 理 之 后 的 数据 为 


{ “people age” :30, “people name” : "xiaoming” , “people city” : “beijing” }。 














在 摄 入 数据 时 ， 计 数 指标 用 于 统计 聚合 的 指标 数量 ， 通 过 与 原始 摄 入 数据 比较 可 以 反映 roll-up 操 作 的 比率 。 





在 摄 入 规则 中 定义 计数 指标 ， 指 标 类 型 为 “count”， 指 标 名 称 也 为 “count”， 样 例如 下 : 





"metricsSpec" : [{ 
"type” : "count", 
"name" : "Count" 


a 





查询 时 对 计数 指标 进行 聚合 ， 注 意 查询 聚合 类 型 为 “longSum” “fieldName” 的 值 必须 与 定义 计数 指标 的 “name” 值 一 致 ， 样 例如 下 : 


"aggregations": [{ 
"type": "longSum", 
"name": "numRows"，# 自 定义 显示 指标 名 称 
"fieldName": "count"# 与 摄 入 规则 中 的 指标 名 称 一 致 
}] 


4.1.2 数据 解析 


1 数据 格式 

















Druid 可 以 加 载 非 标准 化 的 数据 格式 ， 包 括 JSON、CSV、 指 定 分 隔 符 的 TSV， 或 者 任何 自 定义 的 格式 。 不 同 格 式 的 数据 文件 如 下 : 


1) JOSN 格 式 : 





{"timestamp":"2016-12-01T12:00:002", "city":"beijing", "platform":"pce", "orderitem id":"123", "pv cnt":34214, "click cnt":231} 





2) CSV 格 式 ( 按 逗 号 隔 开 ) : 





2016-12-01T12:00:002,"beijing", "pc", "123", 34214,231 





3) TSV 格 式 (按照 tab 键 分 隔 ) : 





2016-12-01T12:00:002 "beijing" "pc" "123" 34214 231 
































4) 自 定 义 格式 : Druid 支 持 自 定义 格式 ， 通 过 使 用 Regex 正 则 解析 器 或 者 JavaScript 解 析 器 来 解析 自 定义 的 格式 。 使 用 这 些 解 析 器 不 如 使 用 内 置 JAVA 实现 的 解析 器 性 能 高 效 。 


2. 格 式 解 析 


(1) 解析 器 
































解析 器 属性 有 多 种 类 型 ， 不 设置 解析 器 类 型 默认 采用 字符 串 解析 器 。 下 面 介 绍 两 种 不 同 的 解析 器 : String Parser 和 ProtobufParser， 其 描述 分 别 如 表 4-1 和 表 4-2 所 示 。 











表 4-1 String Parset 解 析 器 


是 否 必须 
通常 将 该 属性 值 设 置 成 “String”， 如 果 使 用 Hadoop 执行 批量 汪 
数据 摄 入 时 该 值 应 设置 成 “hadoopyString” 
yes 





表 4-2 ”Protobuf Parser 解 析 器 


定义 解析 规则 ， 确 定时 间 戳 和 维度 。 使 用 “timeAndDimns” 解 


arseSpec JSON 对 象 
ws 析 规 则 





(2) 解析 规则 














数据 格式 JSJON、CSV、TSV 等 ) ， 通 过 “timestampSpec” 属 性 值 确定 输入 数据 的 时 间 戳 格式 及 格式 化 方 











通过 ParseSpec 属 性 定义 解析 规则 ， 解 析 器 通过 “format” 属 性 值 确定 输入 数据 格式 ( 常 F 
法 ,通过 “dimensionsSpec” 属 性 值 识 别 各 维度 。 如 果 数 据 格式 是 JSON 格 式 ， 通 过 “flattenSpec” 属 性 值 定义 JSON 榜 套 格式 自动 展开 的 方式 。 

















timestampSpec 时 间 礁 规则 定义 如 表 4-3 所 示 。 





表 4-3 ”timestampSpec 时 间 鹤 规则 定义 


column 时 间 戳 列 yes 


format JSON 对 象 iso 、millis、posix 、auto (默认 值 ) 或 任意 Joda 时 间 格 式 no 


时 间 戳 规则 定义 样 例 : 





"timestampSpec" : { 
"column" : "timestamp", 
"format" : "auto" 


} 








dimensionsSpec 维 度 规则 定义 如 表 4-4 所 示 。 


表 4-4 dimensionsSpec 维 度 规则 定义 











属 性 是 否 必须 
dimensions JSON 数组 由 各 个 维度 名 称 列表 ， 所 有 元 素 类 型 为 字符 串 类 型 yes 
dimensionExclusions 排查 的 维度 名 称 列表 ， 所 有 元 素 类 型 为 字符 串 类 型 no 
spatialDimensions no 

维度 规则 定义 样 例 : 
ofr Pe ,noity", rplatform", "orderiten id"] 
en hn | 
i 
JSON 格 式 数据 解析 规则 配置 如 表 4-5 所 示 。 
表 4-5 JSON 格 式 数 据 解 析 规 则 配置 
format String no 
timestampSpec yes 
dimensionsSpec yes 
flattenSpec no 





JSON 格 式 数 据 解析 规则 定义 样 例 : 





"parseSpec":{ 
"format" : "json", 





] 
"dimensionSpec" : { 
"dimensions" : ["city","platform","orderitem id"] 
} 
} 














CSV 格 式 数据 解析 及 其 描述 如 表 4-6 所 示 ， 由 于 CSV 格 式 数据 中 不 包含 列 名 和 表 头 ， 解 析 规 则 “columns” 属 性 定义 数据 中 包含 的 所 有 列 名 ， 实 际 数据 中 各 列 对 应 的 值 必须 和 定义 的 列 名 顺序 相同 。 








表 4-6 ”CSV 格式 数据 解析 


值 为 “csv” 表 示 输 入 数据 格式 为 CSV 格式 





timestampSpec JSON 对 象 指定 时 间 戳 列 并 设置 时 间 惟 格式 化 方式 
dimensionsSpec JSON 对 象 指定 数据 维度 列 S 
listDelimiter 多 值 维度 列 自 定义 分 隔 符 no 


columns 数据 中 包含 的 所 有 列 名 称 列表 yes 








CSV 格 式 数 据 解 析 规 则 定义 样 例 : 





"parseSpec":{ 


WF 有 EEC 
"timestampSpec" : { 
"column" : "timestamp", 
"Format™ se "oute™ 
Ey 
"columns" : ["timestamp", "city","platform","orderitem id","pv cnt","click cnt"], 
"dimensionsSpec" : { Ee 到 
"dimensions" : ["city","platform","orderitem id"] 


} 
} 





TSV 格 式 数据 解析 及 其 描述 如 表 4-7 所 示 ， 由 于 TSV 格 式 数据 中 不 包含 列 名 和 表 头 ， 解 析 规 则 “columns” 属性 定义 数据 中 包含 的 所 有 列 名 ， 实 际 数据 中 各 列 对 应 的 值 必 须 和 定义 的 列 名 顺序 相同 。 





表 4-7 TSV 格 式 数据 解析 


浪 


format 值 为 “tsv” 表 示 输 入 数据 格式 为 TSV 格式 yes 
timestampSpec 指定 时 间 戳 列 并 设置 时 间 戳 格式 化 方式 yes 
dimensionsSpec 指定 数据 维度 列 yes 
listDelimiter 多 值 维度 列 自 定义 分 隔 符 DO 
delimiter 数据 列 之 间 分 隔 符 ， 默 认 值 “\t” no 
columns 数据 中 包含 的 所 有 列 名 称 列表 yes 


TSV 格 式 数据 解析 规则 定义 样 例 : 











"ParseSpec" :1{ 
"format™ : "tev 
"timestampSpec™" : { 
"column" : "timestamp", 
"format™ : "auto™" 
] 
"colums" : ["timestamp","city","platform","orderitem id","pv cnt","click cnt"], 
"delimiter":;"\t", 
"dimensionsSpec" : { 
"dimensions" : ["city","platform","orderitem id"] 
} 
} 





(3) 粒度 规则 






































设置 解析 规则 中 的 “granularitySpec” 属 性 定义 粒度 规则 ， 索 引 任务 根据 粒度 规则 生成 Segment。 下 面 分 别 介绍 均匀 粒度 规则 和 任意 粒度 规则 的 使 用 。 


均匀 粒度 规则 





均匀 粒度 规则 定义 如 表 4-8 所 示 ， 其 按照 均匀 的 时 间 粒 度 生成 Segment。 


表 4-8 均匀 粒度 规则 


属 性 是 否 必须 
type 默认 值 “uniform” no 


创建 Segment 的 粒度 ， 默 认 值 “ DAY” 








segmentGranularity String no 
按 天 粒度 生成 Segment。 
queryGranularity 设置 查询 的 最 小 粒度 ， 默 认 值 “NONE ”| no 
a 批量 数据 摄 入 需要 设置 ， 
intervals String 需要 加 载 的 原始 数据 的 时 间 范 围 。 a 
S 实时 流 数据 摄 入 不 需要 设置 。 
均匀 粒度 规则 定义 样 例 : 
"granularitySpec": { 
"type": "uniform", 
"eentorandlori iy; a 
Ve a 


"intervals"; [" "2016- 1 0172016- 12=02"] 
} 





任意 粒度 规则 














任意 粒度 规则 将 不 再 通过 设置 “segmentGranularity” 属 性 控制 生成 Segment 的 粒度 ， 而 是 自动 尽 可 能 均匀 地 生成 Segment， 其 规则 定义 如 表 4-9 所 示 。 此 规则 只 适用 于 批量 数据 报 入 过 程 。 























表 4-9 ”任意 粒度 规则 






queryGranularity 


设 六 可 询 的 最 修补 度 ， 歌 认 从 “NONE” 
intervals tring 需要 加 载 的 原始 数据 的 时 间 范 围 






批量 数据 摄 入 需要 设置 ， 
实时 流 数据 摄 和 不 需要 设置 







4.1.3 Segment 分 区 





























Segment 通 常 按照 时 间 戳 分 区 ， 可 以 通过 分 区 规则 的 设置 进一步 划分 ,在 “tuningConfig” 优 化 配置 项 的 “partitionsSpec” 分 区 规则 属性 中 设置 。Druid 支 持 两 种 分 区 策略 : 基于 哈 希 的 分 区 和 基于 
单 维度 的 分 区 。 在 大 多 数 场景 下 推荐 使 用 哈 希 方式 分 区 ， 相 对 于 基于 单 维度 的 分 区 策略 ， 基 于 哈 希 的 分 区 方式 更 有 助 于 提高 索引 性 能 ， 创 建 的 分 区 也 更 加 均匀 。 















































1. 基 于 哈 希 的 分 区 


























哈 希 分 区 的 工作 原理 : 首先 选择 一 些 Segment， 然 后 根据 这 些 Segment 每 行 所 有 维度 的 哈 希 值 进行 分 区 ，Segment 的 数量 由 输入 的 数据 集 和 指定 的 分 区 大 小 或 者 分 区 数目 自动 确定 。 





哈 希 分 区 的 配置 参数 如 表 4-10 所 示 。 





表 4-10 哈 希 分 区 的 配置 参数 


type 分 区 类 型 ， 通 常设 置 值 为 “hashed” Yes 






targetPartitionSize 


是 否 必须 


分 区 大 小 ， 根 据 实际 情况 设置 合适 的 值 ， 建 议 将 大 小 控制 在 | 不 设置 该 参数 就 要 设置 


500MB 到 1GB numShards 
RS 直接 指定 分 区 的 数目 ， 而 不 是 分 区 大 小 。 这 种 设置 会 使 加 载 | 不 设置 该 参数 就 要 设置 
数据 的 速度 更 快 ， 因 为 跳 过 了 自动 选择 分 区 数目 的 步 又 J 
分 区 规则 配置 样 例 : 





"partitionsSpec": { 
"type": "hashed", 
"targetPartitionSize": 5000000 
E 





或 者 





"partitionsSpec": { 
"type": "hashed", 
" numShards ": 5 
} 





2. 基 于 单 维度 的 分 区 

































































单 维度 分 区 的 原理 : 首先 选择 一 个 维度 进行 分 区 ， 在 这 个 维度 下 按照 连续 的 范围 进行 分 割 ， 每 个 segment 将 包含 该 范围 内 该 维度 值 的 所 有 行 。 例 如 ，Segment 按 照 "city 城市 维度 划分 ， 划 分 的 维度 范 
围 从 "a_city "到 "9g_ city"，"g_city 到 "m_city"，"m_city" 到 "z_city"， 按 照 字 典 顺 序 划分 。 默 认 情况 下 ， 用 于 划分 的 维度 可 以 自动 确定 ， 但 是 可 以 指定 一 个 维度 覆盖 自动 选择 的 维度 。 




















单 维度 分 区 的 配置 参数 如 表 4-11 所 示 。 


表 4-11 单 维度 分 区 的 配置 参数 


属 性 
type 设置 值 为 "dimension" 
a 分 区 大 小 ， 根 据 实际 情况 设置 合适 的 值 ， 建 议 将 大 小 控制 在 500MB 
targetPartitionSize 
到 1GB 
属 性 
i 一 个 分 区 中 包含 的 最 大 数据 行 数 ， 上 默认 比 “ targetPartitionSize” 设 
maxPartitionSize 置 的 值 大 500% 
ea 用 于 划分 分 区 的 维度 ， 如 果 不 设置 或 者 设置 为 空 则 自动 选择 维度 划 
partitionDimension DN 
分 分 区 
i 假设 加 载 的 数据 已 经 按照 时 间 和 维度 分 区 ， 加 载 过 程 速度 会 更 快 ， 
| . 如 果 假 设 不 满足 ， 可 以 选择 次 优 分 区 
分 区 规则 配置 样 例 : 








是 否 必 须 


是 否 必 须 


DO 


DO 


DO 





"partitionsSpec": { 
"type": "dimension", 
"targetPartitionSize": 5000000 
} 


4.1.4 模式 更 改 























在 Druid 中 可 以 随时 更 改 数据 源 模式 (schema) 。 在 Druid 中 使 用 数据 源 名 称 、 时 间 段 、 版 本 和 分 区 编号 来 确定 唯一 的 一 个 segment。 如 果 同 一 个 时 间 段 内 创建 了 多 个 segment， 使 用 分 区 编号 来 划分 
不 同 的 segment。 例 如 ， 一 些 Segment 按 小 时 粒度 划分 ， 但 是 加 载 的 数据 量 超过 了 一 个 segment 的 容量 ， 这 时 会 在 相同 的 一 个 小 时 内 创建 多 个 segment。 这 些 相同 小 时 内 的 segment 会 共享 相同 的 数据 























源 、 时 间 间 隔 和 版 本 ， 但 是 同一 小 时 内 不 同 Segment 的 分 区 编号 不 同 ， 新 创建 的 segment 将 使 用 更 高 的 版 本 编号 。 


























信子 


Druid 的 批量 索引 能 够 保证 一 段 时 间 间 隔 的 索引 重建 是 原子 性 的 。 在 重建 索引 完成 之 前 针对 该 时 间 段 内 的 Segment 查 询 ， 还 是 会 使 用 之 前 已 经 存在 的 版 本 的 Segment 进 行 计算 。 一 旦 重建 索引 完成 ， 新 
生成 的 Segment 被 完全 加 载 到 集群 ，| 晶 版 本 的 Segment 将 被 移出 集群 。Druid 只 针对 同一 时 间 段 内 的 Segment 保 证 原子 更 新 ， 不 同时 间 段 的 批量 更 新 不 能 保证 整体 原子 更 新 ， 只 要 有 一 个 时 间 段 内 的 








Segment 完 成 加 载 就 会 替换 上 一 个 版 本 的 Segment。 














Druid 中 同一 个 数据 源 上 的 Segment 可 以 使 用 不 同 的 模式 ， 如 果 一 个 维度 在 一 个 Segment 中 存在 ， 在 另 一 个 Segment 中 不 存在 ， 针 对 这 种 情况 下 的 查询 可 以 正常 使 

















。 例 如 ， 查 询 缺少 维度 的 Segment 





就 像 是 这 个 维度 的 值 为 空 。 同 样 ， 一 个 Segment 中 存在 一 个 指标 ， 但 是 男 一 个 Segment 不 存在 该 指标 ， 针 对 这 种 缺少 指标 Segment 的 查询 也 会 正常 的 执行 ， 对 客户 端 来 说 完全 透明 化 ， 感 觉 不 到 指标 缺 


失 ; 


4.2 ”批量 数据 摄 入 


批量 数据 摄 入 通过 批量 索引 任务 将 静态 数 















































届 加 载 到 Druid 中 ， 具 有 知 吐 量 大 、 容 错 能 力 强 等 优点 ， 但 延迟 时 间 比 较 长 ， 常 用 于 批量 处 理 离线 数据 。 下 面 我 们 将 具体 讲解 基于 Hadoop 的 批量 数据 摄 入 。 





Druid 通 过 Hadoop 执 行 MapReduce 索 引 任务 批量 摄 入 静态 数据 ， 通 过 向 统治 节点 (Overlord Node) 提交 任务 请 求 。 下 面 结合 一 个 完整 的 批量 数据 摄 入 的 规则 定义 ， 介 绍 各 规则 属性 的 详细 定义 方 


法 。 














在 $DRUID_HOME/conf/index_hadoop_bach.json 文 件 中 编写 如 下 批量 数据 摄 入 规则 。 








"type": "index hadoop", 


spec": { 


"dataschema": { 
"dataSource": "ad event", 
"parser": 
"type": "hadoopyString"， 
"parseSpec": { 


} 


"format": "tevy"; 

"delimiter": "\t", 

"timestampSpec": { 
"colum": "timestamp", 
"format": "auto" 


’ 
"columns": [ 


# 执行 数据 摄 入 任务 类 型 
# 索引 规则 定义 

# 数据 模式 规则 定义 

# 数据 源 名 称 

# 数据 解析 规则 定义 





# 定义 数据 格式 为 TSV 格 式 
# 每 行 数据 字段 问 分 隔 符 为 rab 键 Nt 


# 设置 时 间 戳 字段 名 称 
# 根据 输入 数据 时 间 鹤 格式 自动 格式 化 


# 摄取 数据 中 包含 的 所 有 列 名 称 


"timestamp", "city", "platform", "orderitem id","pv_cnt", 


“olick ent™” 
]， 
"dimensionsSpec": { 
"dimensions": [ 


] 
} 


ncity", "platform"," 


# 维度 规则 定义 


orderitem id" 


’ 
"metricsSpec": [ # 指标 规则 定义 
{"type": "count", "name": "count"}, 
{"type": "longSum", "name": "pv_cnt", "fieldName": "pv_cnt"}, 
{"type": "longSum", "name": "click cnt", "fieldName": "click cnt"} 
1 
"granularitySpec": { # 粒度 规则 定义 
"type": "uniform", 
"segmentGranularity": "hour", # 使 用 小 时 粒度 创建 Segment 
"queryGranularity": "none", 


"intervals": [ 


] 
} 


"2016-12-01/2016-12-02" 


kr 

"ioConfig™: { 
"type": "hadoop", 
"inputSpec": { 


"type": "static", 


"pathe"s 


} 


1 
"tuningConfig": { 


"type": 


"hadoop", 


"jobProperties": { 


"mapreduce .map.java.opts": 
"mapreduce. reduce.java.opts": 
"mapreduce. reduce .memory .mb": 
"mapreduce .map.memory.mb": "8192", 

"yarn.nodemanager .vmem-pmem-ratio": 


# 摄取 数据 的 时 间 范 围 


# 数据 源 规则 定义 
# 标示 数据 源 为 Radoop 


# 标示 静态 数据 类 型 


"/data/ad_event/dt=20161201/*" # HDFS 存 储 数据 路 径 


# 优化 规则 定义 
# hadoop 相 关 优化 参数 


" -Dfile.encoding=UTF-8 -Xmx5120m", 
" -Dfile.encoding=UTF-8 -Xmx5120m", 
"8192", 


"16", 


"yarn.nodemanager .pmem-check-enabled": "false" 


}, 


"partitionsSpec": { 
"type": "hashed", 
"targetPartitionSize": "5000000" 


}, 


"numBackgroundPersistThreads": 1, 


"useCombjner": "true", # 执行 MapReduce 任 务 在 Map 端 进行 一 次 合并 


# 分 区 规则 定义 
# 采用 哈 希 分 区 
# 分 区 大 小 500M 





"overwriteFiles": "true" # 相同 时 间 段 内 Segment 已 经 存在 则 使 用 
# 新 的 Segment 覆 疼 


} 


] 
"hadoopDependencyCoordinates": [ 


# 设置 Hadoop 相 关 依赖 组 件 


"org.apache.hadoop:hadoop-client:2.6.0" # 使 用 Hadoop2.6.0 版 本 的 客户 端 
] 








1. 基 础 属性 说 明 


基于 Hadoop 的 批量 数据 摄 入 的 基础 


type 


spec 





hadoopDependencyCoordinates 


classpathPrefix 


属性 说 明 如 表 4-12 所 示 。 


表 4-12 ”基础 属性 说 明 


任务 类 型 ,设置 值 为 “index_hadoop” 
Hadoop 索引 规则 ， 包 括 数据 模式 (“ dataSchema”)、 数 据 源 
(“ioConfig”)、 任 务 执行 的 优化 配置 (“tuningConfig”) 


依赖 Hadoop 的 相关 组 件 ， 此 属性 将 会 覆盖 默认 配置 ， 该 属性 
设置 完 ，Druid 会 从 druid.extensions.hadoopDependenciesDir 配置 
的 路 径 中 加 载 Hadoop 相关 依赖 组 件 ， 属 性 值 格式 为 JSONArray 
将 被 添加 到 蔡 工 (Peon) 执行 任务 的 环境 变量 





spec 索 引 规 则 相关 属性 已 经 在 5.1.2 节 中 介绍 过 ， 请 参考 相关 介绍 。 








2.10Config 数 据 源 相关 属性 说 明 


IOConfig 数 据 源 相关 








属性 说 明 如 表 4-13 所 示 。 


是 否 必须 


yes 


yes 


DO 


DO 


表 4-13 IOConfig 数 据 源 相关 属性 说 明 





设置 值 为 “hadoop” yes 


inputSpec JSON 对 象 数据 源 规则 yes 












































inputSpec 属 性 设置 执行 批量 索引 任务 的 数据 来 源 ，Druid 提 供 了 四 种 不 同形 式 的 数据 源 ， 下 面 详细 介绍 每 种 数据 源 的 使 用 。 


(1) static 











摄取 固定 路 径 下 的 静态 数据 ， 其 相关 属性 如 表 4-14 所 示 。 


表 4-14 ”static 数 据 源 相 关 属 性 说 明 








规则 定义 样 例 : 
"ioConfig" : { 
"type" : "hadoop", 
"inputSpec" : { 
type + "static", 
"paths" : "/data/ad event/dt=20161201/*" 


} 
} 





(2) granularity 








根据 期 望 的 数据 存储 路 径 格式 摄取 数据 ， 其 相关 属性 说 明 如 表 4-15 所 示 。 


表 4-15 ”granulatity 数 据 源 相关 属性 说 明 


属 性 
; , 数据 存储 路 径 格式 分 区 粒度 ， 比 如 hour 表示 按 小 时 分 区 ， 对 应 
dataGranularity String a A 
的 pathFormat 属 值 为 y=XXXX/m=XX/d=XX/H=XX 
inputPath 基础 路 径 ， 在 此 路 径 之 上 查找 分 区 路 径 
filePattern 匹配 应 该 被 摄取 的 数据 文件 的 规则 
a 每 个 目录 采用 Joda 日 期 时 间 格 式 ， 默 认 值 为 “'y=yyyy/'m'= 
MM/"d=dd/H=HH”， 日 期 由 小 写字 母 表示 ， 时 间 由 大 写字 母 表示 
规则 定义 样 例 : 
"ioConfig" : { 
"type" : "hadoop", 
"inputSpec"” : { 
TEYyEe™ 3 ™ granularity Nh 
" dataGranularity ™ :; " hour ", 
" inputPath " : "/data/ad event ", 
™ Eilepattern ™ 3 "+,Jo6n ™ 
™ pathFormat " : " y=XXXX/m=XX/d=XX/H=XX " 


} 
} 





DO 





(3) dataSource 











当 inputSpec 的 类 型 设置 为 “datasource”， 从 已 经 存在 的 数据 源 中 摄取 数据 ， 其 相关 属性 说 明 如 表 4-16 所 示 。 


表 4-16 dataSoutce 数 据 源 相 关 属 性 说 明 


属性 是 否 必须 


ingestionSpec JSON 对 象 加 载 Druid 中 Segment 规则 
maxSplitSize 数字 类 型 多 个 Segment 组 个 ， 默 认 是 “none” 


其 中 ，ingestionSpec 属 性 说 明 如 表 4-17 所 示 。 











表 4-17 ingestionSpec 属 性 说 明 


属性 类 型 是 否 必须 
dataSource String yes 
intervals 列表 ISO-8601 格式 的 时 间 范 围 yes 
segments 列表 读 取 的 segments 列表 ， 默 认 自 动 获取 no 


| 类 型 | 
String | 
列表 
列表 
granularity 加 载 数据 的 查询 粒度 ， 默认 是 “none” no 
Ee 
数组 
boolean | 





加 载 维度 列表 ， 默 认 在 parseSpec 属性 中 配置 维度 列表 ， 如 

果 不 明 确 指 出 将 会 加 载 所 有 维度 
指标 名 称 列表 ， 默 认 对 配置 中 所 有 指标 聚合 no 
如 果 没 有 设置 Segment 是 否 忽 略 ， 默 认 没 有 Segment 报错 no 


dimensions no 


metrics 





ignore WhenNoSegments 





规则 定义 样 例 : 
"ioConfig" : { 
"type" : "hadoop", 
"inputSpec™" : { 
"type" : "dataSource", 
"ingestionSpec" ; { 
"dataSource": "ad e 


| event", 
"intervals": ["2016-12-01T00:00:002/ 2016-12-02T00:00:002Z "] 
i 


}, 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/... 





(4) multi 


将 多 个 inputSpec 整 合 到 一 起 构成 一 个 增 量 加 载 的 inputSpec， 增 量 加 载 不 是 朝 等 操作 。 如 下 例 所 示 : 





"ioConfig™ : { 
"type" : "hadoop", 
"inputSpec™" : { 
"type™” : "multi", 
"children": [ 
{ 
"type" : "dataSource", 
"ingestionSpec" : { 
"dataSource": "ad event" 


"intervals": ["2016-12-01T00:00:002/2016-12-02T00:00:002Z "] 

} 

] 

{ 
"type" : "static", 
"paths": "/gdata/ad event2/dt=20161201/*" 

} 

] 


}, 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/... 








3.TuningConfig 优 化 配置 相关 属性 说 明 


TuningConfig 优 化 配置 相关 属性 说 明 如 表 4-18 所 示 。 





表 4-18 ”TuningConfig 优 化 配置 相关 属性 说 明 


属性 是 否 必须 


存放 Hadoop 作业 中 间 结 果 的 路 径 (默认 值 : Vtmpy/ 


workingPath String no 


druid-indexing') 


创建 Segment 的 版 本 (默认 值 ， 索引 开始 的 日 期 
时 间 ) 


version String no 





partitionsSpec Object 分 区 类 型 (默认 值 : 'hashed') no 


Obiject 
oe 在 持久 化 之 前 聚合 操作 的 数据 行 数 ， 这 个 值 是 聚 
maxRowsIn Memory Integer 合 后 的 行 ， 所 以 这 个 值 和 输入 的 事件 的 数量 不 同 ， no 

主要 用 于 管理 JVM 堆 大 小 (默认 值 : 5000000 ) 

ae | (用 于 调试 ) 任务 结束 之 后 中 间 文 件 保 存在 工作 目 
录 还 是 丢弃 (默认 值 : false) 

| ”Boolean ”| 当 任 务 失败 后 是 否 清除 中 间 文 件 (默认 值 : true) pg 

am | 索引 过 程 中 发 现存 在 的 文件 是 否 覆盖 (默认 值 ; 
false ) 

| ”Boolean ”| “出 现 问题 是 否 忽略 (默认 值 : false) no 

”Boolean ”| 在 Map 端 进 行 一 次 合并 操作 (默认 值 :false) no 


leaveIntermediate Boolean no 
cleanupOnFailure Boolean 
overwriteFiles Boolean no 


lgnoreInvalldRows Boolean 


useCombiner Boolean 





( 续 ) 


属 性 类 述 是 否 必须 
Hadoop 任务 属性 组 成 的 map 对 象 ， 这 些 属性 将 添 
加 到 Hadoop 的 任务 中 (默认 值 : null) 


JobProperties Object no 


buildV9Directly 默认 值 : false no 


是 否 使 用 新 的 后 台 线 程 去 完成 持久 化 ， 使 用 此 功 
numBackgroundPersistThreads Integer 能 会 使 内 存 压 力 和 CPU 使 用 率 显著 增长 ,但 是 会 使 no 


任务 更 快速 地 完成 ,推荐 设置 为 1 (默认 值 : 0) 





通过 HTTP POST 方式 向 统治 节点 提交 任务 请 求 : 





Curl -X 'POST' -H 'Content-Type:apPlication/json' -d @conf/index hadoop bach.json192.168.1.1:9091/druid/indexer/v1/task 








通过 访问 通知 节点 的 WebUl 控 制 台 页 面 192.168.1.1:9091/console.htm| 查 看 任务 运行 状态 ， 运 行 成 功 之 后 访问 协调 节点 WebUl 控 制 台 页 面 192.168.1.1:9093 查 看 数据 源 ad_event 的 状态 信息 ， 
所 示 。 





datasources / ad_event 


| edit rul hist loadForever (default rule) 
0 Rules 2 in _default_tier 


15.6 kB in _default_tier 


Timeline (unreplicated) 
15.6 kB over a day 
Dec 1st 2016to Dec 2nd 2016 


daily 包 monthly@& 


熏 :hardsin 生 intervals 1 shard (3.9 kB) for 2016-12-02T02 to 2016-12-02T03 


Fri 02 09 PM 


ervais 


2016-12-02 02 
2016-12-02 01 
2016-12-01 02 


2016-12-01 01 106 


3 dimensions 3 metrics 


city platform orderitem_id count pv_cnt click_cnt 


图 4-1 查看 数据 源 状态 信息 


























如 图 4-1 











3.9unsharded{ type":"hdfs", path";"hdfs://nn1:9000/user/hive/warehouse/fangzhou.c 
k 


B 
10.127.92.89 v2017-03-29106:01:09.740Z bin ver 9 
10.1 




















在 Druid 中 使 用 Tranquility 和 Indexing Service 索 引 服务 实现 流 式 数 据 报 入 ， 或 者 通过 独立 的 Realtime 实 时 节点 实现 。 第 一 种 方法 的 配置 相对 复杂 ， 但 是 具有 可 扩展 、 高 可 用 的 特点 ， 符 合生 j 
求 。 第 二 种 方法 配置 简单 ， 但 是 实时 节点 存在 一 些 自身 的 限制 请 查看 4.1.1 节 的 介绍 ) ， 可 能 会 产生 一 些 意 想不到 的 问题 。 在 生产 环境 中 建议 使 用 Tranquility 配 合 索引 服务 一 起 使 用 完成 流 数 据 摄 













































































环境 的 需 
入 。 





Tranquility 是 使 用 Sala 语 言 开发 的 一 个 分 布 式 、 高 性 能 、 可 扩展 、 无 停机 的 稳定 服务 ， 结 合 索 引 服务 (Indexing Service) 一 起 使 用 ， 用 于 加 载 实时 流 数据 。Tranquility 在 加 载 流 数据 过 程 中 
创建 、 管 理 索引 任务 ， 处 理 分 区 、 副 本 、 服 务 发 现 、 数 据 模 式 改变 等 。 












































要 负 


出 


Tranquility 使 用 EventReceiverFirehose 监 听 HTTP 端 口 接收 事件 ， 并 且 为 每 个 segment 创建 一 个 实时 索引 任务 。 每 个 索引 任务 是 在 创建 sgment 粒 度 (segmentGranularity) 开始 阶段 接收 的 第 一 个 























事件 开始 启动 的 。 每 个 索引 任务 会 与 一 个 特定 的 分 区 号 相关 联 ， 下 面 介绍 分 区 的 时 候 会 说 明 。 通 过 firehose 来 判断 是 否 抛弃 过 时 的 事件 和 决定 任务 的 结束 时 间 。 当 创建 Segment 的 粒度 加 窗口 期 时 





























间 到 了 ， 


则 将 segment 合并 移交 到 深度 存储 ， 直 到 移交 成 功 ， 任 务 结束 。 所 以 一 个 实时 索引 任务 的 生命 周期 等 于 segmentGranularity+windowPeriod+ 推 送 事件 到 深度 存储 消耗 的 时 长 +Segment 被 下 载 到 历史 节 




















点 并 且 可 以 被 查询 的 时 间 之 和 。 





Tranquility 通 过 Zookeeper 协 调 所 有 任务 的 创建 ， 在 资源 充足 的 情况 下 ， 尽 可 能 多 启动 一 些 Tranquility 实 例 ， 提 高 系统 整体 的 容错 和 处 理 能 力 。 



































Tranquility 通 过 窗口 期 来 判断 是 否 删 除 事件 ， 如 果 接收 事件 的 时 间 延 迟 或 者 提前 时 间 超 过 窗口 期 ， 则 该 事件 将 会 被 删除 。 创 建 Segment 的 粒度 和 窗口 期 决定 了 任务 应 该 持续 多 长 时 间 ， 以 及 数据 被 移 除 
到 深度 存储 之 前 在 实时 系统 中 保存 的 时 长 。 窗 口 期 时 间 设 置 的 越 长 ， 则 任务 需要 监听 时 间 的 延迟 时 间 越 长 ， 当 创建 Segment 的 粒度 满足 后 就 会 有 新 的 任务 被 创建 ， 为 了 防止 出 现任 务 过 度 累 积 ， 建 议 选择 一 
个 合适 的 值 将 windowPeriod 时 间 设 置 为 小 于 segmentGranularity。 






































3. 分 区 和 副本 











Tranquility 通 过 创建 多 个 任务 实现 多 分 区 ， 每 个 任务 都 有 不 同 的 分 
同时 发 送 到 多 有 副本 任务 ， 每 个 任务 的 分 区 号 是 相同 的 。 








M4 
业 





。 默 认 情况 : 事件 通过 分 区 器 按照 时 间 和 维度 分 区 ， 以 达到 rollup 的 最 佳 性 能 。 多 副本 的 实现 也 是 创建 多 个 任务 ， 一 个 事件 会 被 




















4 数据 模式 更 改 





























Tranquility 运 行 一 段 时 间 之 后 需要 修改 维度 或 者 指标 ， 新 的 配置 规则 将 应 用 于 之 后 新 的 任务 ， 之 前 创建 的 任务 还 将 继续 使 用 旧 的 配置 。 



































5 . 流 数据 接 入 方式 


Tranquility 可 以 实现 两 种 不 同方 式 的 流 数据 接 入 ， 分 别 是 Stream Push 和 Stream Pull。Stream Push 方 式 是 外 部 流 处 理 程序 通过 HTTP 向 Tranquility 推 送 数 据 ， 也 可 以 通过 Tranquility 提 供 的 AP 嵌入 到 
目前 比较 流行 的 流 处 理 框架 中 ， 如 Spark、Strom、Flink 等 。stream Pull 方 式 是 Tranquility 采 用 拉 取 的 方式 从 分 布 式 消息 系统 Kafka 中 将 消费 消息 加 载 到 Druid 中 。 注 意 ， 所 有 通过 Tranquility 加 载 的 数据 必 
须 是 最 近 时 间 的 数据 ， 延 迟 时 间 过 长 的 消息 将 会 被 殷 奔 ， 历 史 数 据 最 好 通过 批 处 理 方式 加 载 到 Druid。 















































Tranquility 可 以 在 不 编写 任何 代码 的 情况 下 ， 只 需要 在 相关 配置 文件 中 设置 关键 属性 ， 并 在 启动 Tranquility 服 务 时 指定 相关 配置 文件 即 可 提供 稳定 的 服务 。Tranquility 一 旦 启动 ， 配 置 文件 不 能 再 改 
变 ， 如 需 修 改 属性 值 ， 修 改 完 必须 重启 Tranquility。 一 个 Tranquility 服 务 进程 可 以 处 理 多 个 数据 源 ， 为 了 提高 系统 可 用 性 和 稳定 性 ， 可 以 启动 多 个 Tranquility 服 务 进程 ， 实 现 负 载 均衡 。 












































Indexing Service 中 没有 集成 Tranquility 项 目 ， 需 要 单独 部 署 。Tranquility 项 目 github 地 址 : https://github.com/druid-io/tranquility。 











Tranquility 部 署 方 式 非常 简单 ， 首 先 下 载 安装 包 和 解压 ， 然 后 根据 需求 编写 配置 文件 ， 启 动 服务 。 





Tranquility0.8.1 下 载 地 址 : http://static.druid.io/tranquility/releases/tranquility-distribution-0.8.1.tgz。 








Tranquility 安 装 包 和 解压 之 后 在 conf 目 录 下 有 两 种 模板 配置 文件 : 一 种 是 启动 自身 服务 监听 端口 接收 Stream Push 方 式 推送 数据 的 配置 文件 server.json.example; 另外 一 种 是 采用 Stream Pull 方 式 从 
Kafka 拉 取消 息 的 配置 文件 kafka.json.example。 根 据 实际 摄取 流 数据 的 方式 选择 合适 的 配置 文件 重 命名 修改 属性 值 即 可 使 用 。 



























































样 例 模板 配置 如 下 : 


"dataSources" : [ 


"spec™ : { 
"dataschema™" : { 
"dataSource" : "http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/...", 
"parser" : {http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0OEBPS/Text/...}, 
"metricsSpec" : [http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/...], 
"granularitySpec" : {http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/...} 
] 7 
"tuningConfig" : {http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/...} 
] 
"properties" : {http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/...} 
} 
], 
"properties" : { 
"zookeeper.connect" : "http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...", 
"Zookeeper .timeout" : "PT20S", 
http.port” ; ”8200*, 
"http.threads" : "40" 
"druid.selectors.indexing.serviceName" : "druid/overlord", 
"druid.discovery.curator.path" : "/druid/discovery", 
# Kafka 相 关 属 性 
"kafka.zookeeper.connect" : "http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...", 
"kafka.group.id" : "tranquility-groupid", 
"consumer .numThreads" : "2", 
"commit .periodMillis" : "15000", 
"reportDropsAsExceptions" : "false" 

















上 述 样 例 配置 文件 由 两 部 分 组 成 : dataSources 属 性 对 应 Druid 数 据 源 相关 规则 配置 (注意: dataSources 属 性 值 是 个 数组 ， 可 以 配置 多 个 数据 源 ) 和 properties 属 性 对 应 Tranquility 的 全 局 属性 配 
置 ，properties 属 性 配置 将 会 应 用 到 所 有 数据 源 。 









































dataSource 配 置 包含 “spec” 和 “properties” 两 部 分 : “spec” 包 含 Druid 摄 取 数 据 的 规则 ， 其 中 不 需要 配置 “ioConfig” 和 Tranquility 内 部 自 带 的 firehose 和 plumber 插 件 ; properties 配 置 为 全 
局 属性 配置 ， 在 dataSource 中 配置 properties 属 性 将 会 覆盖 外 层 的 全 局 属性 配置 。 












































properties 全 局 属性 说 明 如 表 4-19 所 示 。 


表 4-19 ”properties 全 局 属性 说 明 


站 mr 
druid.discovery.curator.path 服务 发 现 路 径 /druid/discovery 











druid.selectors.indexing.serviceName 提供 索引 服务 的 Overlord 统治 节点 服务 名 称 druid/overlord 
druidBeam .firehose BufferSize firehose 组 件 缓存 事件 大 小 100000 
druidBeam.firehoseChunkSize 一 次 HTTP 请 求 包含 的 最 大 事件 数 1000 
druidBeam.firehoseGracePeriod 窗口 过 期 时 间 ， 过 期 之 后 索引 任务 将 被 关闭 PTSM 
druidBeam.firehoseRetryPeriod PTIM 
druidBeam.indexRetryPeriod 调用 索引 服务 的 Overlord 失败 ， 重 试 间隔 时 长 PTIM 
task partitions ! 
task.replicants 1 
当 接 收 消息 队列 被 装 满 ， 如 果 设 置 为 “ true”， 新 的 

tranquility.blockOnFull 提交 请 求 将 阻塞 ， 如 果 设 置 为 “false"”， 新 的 请 求 将 | true 

会 接收 到 tranquility 抛 出 的 异常 信息 
tranquility.maxBatchSize 批量 发 送 的 最 大 消息 数 2000 
tranquility.maxPendingBatches 等 待 阻 塞 的 请 求 批 次 数 5 





Zookeeper.connect ZooKeeper 链接 地 址 none (必须 提供 ) 
Zookeeper.timeout 连接 ZooKeeper 超时 时 间 PT20S 


http.port Tranquility 服务 监听 的 端口 号 8200 


http.threads 处 理 HTTP 请 求 的 线程 数 40 


空闲 等 待 时 长 ，ISO8601 格式 的 时 间 间 隔 ， 设 置 为 


http.idleTimeout PTSM 


0 表示 禁用 此 属性 





4.3.2 StreamPush 


Stream Push 方 式 是 外 部 流 处 理 程序 通过 HTTP 向 Tranquility 推 送 数据 ， 也 可 以 通过 Trangquility 提 供 的 API 嵌 入 到 流 处 理 程序 中 ， 比 如 目前 比较 流行 的 流 处 理 框 架 SparkStreaming、Strom、Flink 等 。 
本 节 将 介绍 使 用 Tranquility 通 过 HTTP 的 方式 将 数据 推送 到 Druid 生 成 Segment 的 方式 。 














下 面 通过 一 个 简单 的 例子 了 解 整体 的 加 载 流 程 。 


JSON 数 据 格式 如 下 : 





{"timestamp": "2016-12-01T01:00:002","city": "beijing","platform":"pc","orderitem id": 
1230 0 "pv ent":100;: "oliek cnt":15} 





编辑 STRANQUILITY_HOME/conf/serverjson 配 置 文件 ， 数 据 源 名 称 为 “ad_event_stream” ， 时 间 戳 “timestamp” ， 维 度 列表 包括 “city” 城 市 ，“platform” 平 台 ，“orderitem _id” 订 单项 
ID， 指 标 列表 包含 “pv_cnt” 了 曝光 量 ，“click_cnt” 点 击 量 ，HTTP 监 听 端 口 8200。 详 细 配置 如 下 : 























"dataSources" : [ 
{ 
"spec™ 3 { 
"dataschema" : { 
"dataSource" : "ad event_ stream", 
"parser" : { 
"type" : "string", 
"ParseSpec™" : { 
"format™ ¢ "jeorn™s 
"timestampSpec" : {"column" : "timestamp","format" : "auto"}, 
"dimensionsSpec" : { 
"dimensions" : ["city","platform","orderitem id"] 
} 
E 
] 
"metricsSpec" : [ 
{"type" : "count","name" : "count"}, 
{"fieldName" : "pv_cnt","type" : "longSum","name™" : "pv cnt"}, 
{"fieldName" : "click cnt","type" : "longSum","name" : "click cnt"} 


1 

"granularitySpec" : { 
"segmentGranularity" : "hour", 
"queryGranularity" : "none", 
"type™” : "uniform" 


} 


1 
"tuningConfig" : { 
"type" : "realtime", 
"windowPeriod" : "PT10M"， 
nintermediatePersistPeriod" : "PT10M"， 
"maxRowsInMemory" : 75000 
} 
}, 
"properties" : { 
task .partitions" : "2", 
"task.replicants™" : "2" 
} 
} 
] 


’ 
"properties" : { 


"zookeeper.connect" : "192.168.1.1:2181,192.168.1.2:2181,192.168.1.3:2181", 


"http.port™" :; "8200", 
"http.threads" : "40" 











新 的 配置 文件 重新 启动 Tranquility Server。 




















如 果 Tranquility Server 已 经 启动 ， 请 先 关 闭 ,使 


启动 命令 如 下 : 





bin/tranquility server -configFile conf/server.json 





通过 curl| 发 送 HTTP 请 求 ， 将 含有 10 条 测试 数据 的 ad_event_stream_data.json 数 据 文件 发 送 到 Tranquility。 


HTTP 发 送 数据 文件 命令 如 下 : 





Curl -XPOST -H'Content-Type: application/json' \ 
--data-binary @ ad event stream data.json\ 
http://localhost:8200/v1/post/ ad event stream 





发 送 成 功 并 返回 结果 {"result":{"received":10,"sent":10}}， 表 明 HTTP 服 务 器 已 成 功 接收 到 了 10 条 ; 








调整 时 间 礁 重新 发 送 数据 。 





了 窗口 期 ， 需 














回 


肖 息 ， 并 成 功 加 载 到 Druid 中 。 如 果 返 





至 此 ，Druid 加 载 流 数据 完成 ， 可 以 通过 Druid 提 供 的 查询 方式 查询 已 经 加 载 的 数据 ， 了 解 Druid 提 供 的 查询 方式 请 参考 第 6 章 关 于 查询 方式 的 介绍 。 


4.3.3 ”从 Kafka 中 摄取 数据 

















体操 作 过 程 如 下 。 





本 节 将 介绍 通过 stream Pull 的 方式 从 Kafka 拉 取 数 据 加 载 到 Druid 中 。 








在 kafka 中 创建 名 称 为 “ad _stream_event"” 的 Topic， 副 本 为 2， 分 区 为 3: 


结果 “sent” 对 应 的 数字 是 


0， 说 明 发 送 的 数据 时 间 戳 已 经 超过 





./bin/kafka-topics.sh --create \ 

--Zookeeper 192.168.1.1:2181,192.168.1.2:2181,192.168.1.3:2181\ 
--replication-factor 2 

-partitions 3 

--topicad stream event 





编辑 $TRANQUILITY_HOME/conf/kafka.json 配 置 文件 ， 数 据 源 名 称 为 “ad_event stream” ， 


1D， 指 标 列表 包含 “pv_cnt” 曝 光量 、“click_cnt” 点 击 量 ， 详 细 配 置 如 下 : 


时 间 惟 为 “timestamp” ， 维 度 列表 包括 “city” 城 市 、 





“platform” 平台、 


“orderitem id” 订 


内 





"dataSources" : [ 
{ 
"spec" ; { 
"dataschema" : { 
"dataSource" : "ad event stream", 
"granularitySpec" : { 
"queryGranularity" : 
"type" : "uniform", 
"segmentGranularity" : 


"none", 


Le 
] 
"parser" : { 
"type" : "string", 
"ParseSpec" : { 
"timestampSpec" : 
"format" : "json", 
"dimensionsSpec" : { 
"dimensions" : ["city","platform","orderitem id"] 


{"format” ; "auto", "column" : 


} 
} 
] 
"metricsSpec" : [ 
{"type” 2 7 CoOURE” name : 
{"type" : "longSum", "name" 
fname” 3 "click cnt","type" : 


Vomt rps 

: "pv_cnt","fieldName" : 

"longSum", "fieldName" : 
] 

] 7 

"tuningConfig" : { 
"type" : "realtime", 
"intermediatePersistPeriod" : 
"windowPeriod" : "PT1OM", 
"maxRowsInMemory" : 75000 


VPEIOM, 


bE: 

ks 

"properties" : { 
"task.partitions™ : 
"task.replicants" : 


"3n, 
non 


} 

], 

"properties" : { 
"Zookeeper.connect" :; "192.168.1.1:2181,192.168.1.2:2181,192.168.1.3:2181", 
"Zookeeper .timeout" : "PT20S", 

"druid.selectors.indexing.serviceName" "druid/overlord", 
"druid.discovery.curator.path" : "/druid/discovery", 





"timestamp"}, 


"pv_cnt"}, 
"Bpv_cnt"} 


"kafka.zookeeper.connect":"192.168.1.1:2181,192.168.1.2:2181,192.168.1.3:2181", 


"kafka.group.id" : "tranquility-ad-stream", 


"consumer .numThreads" ; "3", 
"commit .periodMillis" : "15000", 
"reportDropsAsExceptions" : "false" 





启动 Tranquility 命 令 如 下 : 





bin/tranquility kafka -configFile conf/kafka.json 








新 启动 。 





如 果 之 前 已 启动 ， 请 先 关闭 再 








使 用 kafka 提 供 的 消息 生产 者 客户 端 向 kafka 发 送 数 据 ， 命 令 如 下 : 











./bin/kafka-console-producer.sh \ 
-broker-list 192.168.1.1:9092,192.168.1.2:9092, 192.168.1.3:9092 \ 


--topic ad event_ stream 








至 此 ，Druid 从 Kafka 加 载 数据 完成 ， 可 以 通过 Druid 提 供 的 查询 方式 查询 已 经 加 载 的 数据 ， 了 解 Druid 提 供 的 查询 方式 请 参考 第 6 章 关于 查询 方式 的 介绍 。 


4.4 数据 更 新 





对 于 已 经 存在 的 数据 源 ， 如 果 想 修改 历史 数据 模式 ， 改 变 Segment roll-up 粒 度 ， 增 量 添加 数据 ， 有 几 种 情况 可 以 操作 。 


1.lookup 





由 于 Druid 目 前 不 支持 JOIN 关联 操作 ， 如 果 在 数据 源 中 只 存储 1D 没 有 存储 名 称 ， 在 查询 过 程 中 需要 频繁 地 更 新 ID 对 应 的 名 称 ， 推 荐 使 用 lookup 功 能 。 



































小 数量 级 的 查找 替换 使 用 Map 类 型 的 lookup， 规 则 定义 格式 如 下 : 





"type":"lookup", 
"dimension":" dimension name"y 


"outputName":" dimension outputname", 


"replaceMissingValueWith":"", 
"retainMissingValue":false, 
"lookup":{"type": "map", "map":{"key 


"nvalue"}} 











其 属性 说 明 如 表 4-20 所 示 。 


属 性 
Type 
Dimension 


outputName 
replaceMissingValue With 


retainMissing Value 


lookup 


2. 重 建 索引 


如 果 想 对 已 经 存在 一 段 时 间 内 的 Segment 添 加 或 者 删除 列 ， 或 者 想 改变 segment rollup 粒 度 ， 需 要 重建 索引 。 建 议 在 重建 索引 之 前 保存 原 Segment 的 副本 ， 防 止 意外 情况 的 发 生 。 重 建 索引 可 以 使 


基于 Hadoop 的 批量 数据 摄 入 方式 。 


3. 增 量 加 载 


如 果 采 


























表 4-20 lookup 相 关 属 性 说 明 


描 述 
设置 值 为 “lookup” 
维度 名 称 
输出 维度 名 称 


替换 未 查找 出 结果 的 值 ， 默 认 “” 等 同 于 设置 值 为 “null”。 当 retainMissingValue 
设置 为 false 时 有 效 

如 果 为 查找 出 对 应 的 值 ， 是 否 保留 维度 原 值 ， 默 认 false 

Map 类 型 lookup 定义 规则 ， 属 性 type 值 为 “map”。 属 性 map 值 为 JSON 对 象 ， 
该 JSON 对 象 包含 的 每 对 key-value 键 值 都 是 一 组 用 于 查找 的 对 象 ，key 是 维度 中 可 
能 的 值 ，value 是 匹配 成 功 输 出 的 值 












































批量 数据 摄 入 的 方式 ， 并 且 不 断 有 延迟 时 间 添 加 进来 ， 需 要 将 延迟 数据 追加 到 已 存在 的 segment 中 ， 为 了 避免 重建 索引 ， 采 用 增 量 加 载 的 方式 。 


























基于 Hadoop 完 成 增 量 加 载 。Druid 通 过 ioConfig 和 inputSpec 属 性 可 以 知道 从 什么 位 置 加 载 数据 以 及 采用 什么 方式 读 取 数据 。 对 于 简单 的 Hadoop 批 量 加 载 ， 通 过 static 或 者 granularity 两 种 方式 读 取 


存储 在 深度 存储 中 的 数据 。ioConfig 和 inputSpec 


4.5 

















小 结 

















属性 的 具体 使 用 方法 请 参考 5.2.1 节 关于 inputSpec 的 详细 介绍 。 





























本 章 主要 介绍 了 Druid 数 据 摄 入 的 详细 模式 设计 。 基 于 Hadoop 的 批量 静态 数据 报 入 ， 索 引 服务 结合 Tranquility 服 务实 现 流 数据 以 StreamPush 和 SreamPull 的 两 种 摄 入 方式 。 介 绍 了 通过 使 用 Druid 提 供 
的 lookup 功 能 实现 关联 操作 ， 基 于 Hadoop 的 批量 静态 数据 摄 入 实现 对 已 存在 Segment 的 模式 更 改 和 增 量 加 载 。 通 过 对 本 章 的 学 习 ， 大 家 可 以 熟练 掌握 对 Druid 数 据 报 入 的 使 用 方法 。 


第 5 章 ”Druid 客 户 端 


5,1 


Sil:l 


涉及 组 件 


查询 相关 


1 数据 源 


Druid 中 的 数据 源 与 我 们 比较 熟悉 的 关系 数据 库 中 表 的 概念 等 同 ， 所 有 分 析 查 询 都 是 基于 数据 源 进行 分 析 计 算 。 在 “groupBy” 查 询 中 提供 了 类 似 子 查询 的 功能 。 下 


(1) 单 表 数 据 源 



































对 
臣 
Di 
强 








的 三 种 数据 源 。 























最 常用 的 数据 源 ， 定 义 方式 如 下 : 














"type": "table", 
"name": "<string value>" 


} 























在 实际 使 用 中 可 以 直接 用 字符 串 表 示 ， 下 面 以 时 间 序 列 查询 举例 说 明 : 按 天 粒度 查询 数据 源 “ad_event” 在 2016-12-01 到 2016-12-03 时 间 区 间 内 数据 总 量 。 查 询 规则 定义 如 下 : 























"queryType": "timeseries", 
"dataSource": "ad event", 
"granularity": "day", 
"aggregations": [ 
{ "type": "longSum", "name":; "count", "fieldName": "count" } 
]， 
"intervals": [ "2016-12-01/2016-12-03" ] 
} 
返回 结果 
过 
"timestamp" : "2016-12-01T00:00:00.0002Z", 
"result" : { 
"count"” 10 
二 
"timestamp" : "2016-12-02T00:00:00.000z"， 
Weesult™ s § 
"count” ; 10 


} 
1 





(2) 联合 数据 源 








联合 数据 源 表 示 将 多 个 数据 源 联 合 起 来 作为 一 个 数据 源 ， 在 使 用 过 程 中 联合 的 多 个 数据 源 的 数据 模式 要 保持 一 致 ， 并 且 只 能 通过 Broker 或 者 路 由 节点 查询 ， 不 能 











如 下 : 





接 请 求 Historical 节 


点 


查询 。 定 义 方式 





"type": "unionny 
"dataSources": ["dataSourcel", " dataSource2", 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/... ] 





下 面 以 时 间 序 列 查询 举例 说 明 : 按 天 粒度 查询 数据 源 “ad_event” 和 “ad_event_repl” 在 2016-12-01 到 2016-12-03 时 间 区 间 内 的 数据 总 量 ， 为 了 说 明 问 题 ,创建 “ad_event” 数 


源 “ad_event_repl”， 此 时 查询 的 数据 总 量 应 该 等 于 上 例 中 查询 结果 的 两 倍 。 查 询 规则 定义 如 下 : 





居 源 的 副本 数据 








"queryType": "timeseries", 
"dataSource": { 
"type": "union", 
"dataSources": ["ad event"," ad event repl "] 
ks 
"granularity": "day", 
"aggregations": [ 
{ "type": "longSum", "name": "count", "fieldName": "count" } 


]， 
"intervals": [ "2016-12-01/2016-12-03" ]， 
} 








"timestamp" :; "2016-12-01T00:00:00.0002Z", 
"result" : { 

"count™ + 20 
} 


bt 
"timestamp" :; "2016-12-02T00:00:00.0002Z", 


"result" : { 
“ooontY $ 20 
i 


i] 





(3) 查询 数据 源 


查询 数据 源 类 似 嵌 套 查询 ， 内 层 查询 的 结果 作为 外 层 查询 的 数据 源 。 目 前 只 支持 将 “groupBy” 的 查询 结果 作为 查询 数 








居 源 ， 定 义 方式 如 下 : 





"type": "query", 
"query": { 
"type": "groupBy", 


http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/... 


} 





2. 查 询 上 下 文 


Context 查 询 上 下 文 参数 主要 在 查询 规则 中 使 用 ， 可 选 参数 如 下 所 示 : 

“timeout: 超时 时 间 ， 超 过 超时 时 间 没 有 完成 的 任务 会 被 取消 ， 默 认 值 0〈 没 有 超时 时 间 ) ， 单 位 是 毫秒 。 
-priority: 查询 优先 级 ， 具 有 高 优先 级 的 查询 优先 获取 到 查询 资源 ， 默 认 值 0。 

-queryId: 查询 唯一 标识 ， 如 果 设 置 了 queryId 或 者 已 知 queryId， 可 以 使 用 queryId 取 消 查询 。 
"useCache: 是 否 将 查询 保存 到 查询 缓存 ， 这 个 配置 会 覆盖 Brokez 或 者 Historical 的 配置 ， 默 认 值 true。 


-PopulateCache: 是 否 将 查询 结果 保存 到 查询 缓存 ， 主 要 用 于 调试 。 这 个 配置 会 覆盖 Broker 或 者 Historical 的 配置 ， 默 认 值 true。 
-bySegment: 返回 “by segment”“ 结 果 ， 主 要 用 于 调试 ， 如 果 设 置 为 true， 将 会 返回 与 结果 相关 联 的 数据 段 信息 ， 默 认 值 false。 





-chunkPeriod: Broker 节 点 ， 长 时 间 间 隔 的 查询 (任何 类 型 ) 会 被 分 成 多 个 短 时 间 间 隔 的 查询 ， 减 少 对 资源 的 影响 。 使 用 ISO 8601 时 间 格 式 定义 周期 ， 如 : 当 一 个 查询 的 时 间 间 隔 覆 盖 一 年 ， 如 果 这 个 属相 设置 PIM (一 个 
月 ) ， 将 按 月 被 拆 分 成 12 个 更 小 的 查询 ， 所 有 的 查询 会 被 异步 执行 处 理 ， 确 保 "druid.processing.numThreads" 设 置 适当 的 值 ， 默 认 值 0。 


"skipEmptyBuckets: Timeseries 时 间 序 列 查询 返回 结果 没有 值 时 会 自动 补 零 ， 该 属性 值 设 置 为 true 将 跳 过 空 值 的 结果 。 


-minTopNThreshold: 每 一 个 Segment 的 结果 合并 到 一 起 ， 组 成 一 个 全 局 的 TopN 结 果 集 的 最 小 结果 数 ， 默 认 值 1000。 


ke “groupBy” 查 询 返回 最 大 结果 数 。 默 认 在 Broker 和 Historical 节 点 配置 文件 中 调整 druid.query.groupBy.maxResults 值 ， 查 询 规则 中 改变 最 大 结果 数 必须 小 于 Broker 和 Historical 节 点 中 设置 的 值 ， 默 认 
500000。 


“maxIntermediateRows: “groupBy” 查 询 处 理 单个 Segment 的 最 大 中 间 行 数 。 默 认 在 Broker 和 historical 节 点 配置 文件 中 调整 druid.query.groupBy.maxIntermediateRows 值 ， 查 询 规则 中 改变 最 大 中 间 行 数 必须 小 于 
Broker 和 Historical 节 点 中 设置 的 值 ， 默 认 值 50000。 


“groupByIsSingleThreaded: 是 否 使 用 单独 线程 处 理 *grouPpBY“ 查 询 。 默 认 在 historical 节 点 修改 druiq.query.groupBy.singleThreaded 值 来 调整 ， 默 认 值 false。 


5.12， 过 演 踢 











Druid 中 的 过 滤 条 件 类 似 SQL 语 句 中 的 “where” 限 制 条 件 ， 用 于 过 滤 无 效 数据 ， 提 高 聚合 计算 查询 性 能 。 在 定义 查询 规则 时 通过 “filter” 配 置 项 添加 过 滤 规 则 ，“filter” 配 置 项 的 值 为 定义 过 滤 规 则 
的 JSON 对 象 。 下 面 介绍 几 种 常用 的 过 滤 条 件 。 




















1. 选 择 过 滤器 





























选择 过 滤 是 最 常用 、 最 简单 、 也 是 最 直接 的 一 种 过 滤 方式 ， 等 同 于 SQL 语句 “where” 限 制 条 件 中 的 “column=value” 。 使 用 选择 过 滤 需 要 配置 三 个 配置 项 : type 一 一 过 滤 类 型 值 
为 “selector”，dimension 一 一 需要 过 滤 的 维度 名 称 ，value 一 一 过 滤 的 维度 值 。 























实现 SQL 语句 中 “where city= “beijing” ”的 选择 过 滤 配 置 项 为 : “filter” :{ “type” : “selector” ，“dimension” : “city” ，“value” : “Beijing” } 


2. 正 则 表达 式 过 滤器 















































正则 表达 式 过 滤器 通过 使 用 java 正则 表达 式 匹 配 维度 值 获取 满足 条 件 的 数据 ， 正 则 表达 式 过 滤器 的 使 用 非常 简单 ， 需 要 配置 三 个 配置 项 : type 一 一 过 滤 类 型 值 为 “regex”，dimension 一 一 需要 过 滤 
的 维度 名 称 ，pattern 一 一 过 滤 使 用 的 正则 表达 式 。 



































样 例 配置 规则 如 下 : 








"filter": { "type": "regex", "dimension": <dimension string>, "pattern": <pattern string> } 





3. 逻 辑 过 滤器 

















逻辑 过 滤器 提供 与 、 或 、 非 三 种 逻辑 关系 过 滤 ， 逻 辑 过 滤器 的 使 用 需要 配置 两 个 配置 项 : type 一 一 过 滤 类 型 值 为 “and” “or”“not”， 表 示 与 、 或 、 非 三 种 逻辑 关系 ; fields 值 为 JJON 数 组 ， 数 组 
中 定义 不 同 的 子 过 滤器 ， 子 过 滤器 可 以 使 用 其 他 类 型 的 任何 过 滤器 ， 他 们 之 间 的 逻辑 关系 就 是 type 配 置 项 定义 的 逻辑 关系 。 
































样 例 配置 规则 如 下 : 


"filter": { "type": "and", "fields": [<filter>, <filter>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/...] } 
"filter": { "type": "or", "fields": [<filter>, <filter>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/...] } 
"filter": { "type": "not", "field": <filter> } 








通过 示例 展示 与 SQL 语 句 中 where(city='beijing'or city='shanghai)and platform!='pc' 等 价 的 查询 规则 ， 定 义 如 下 : 





"filter"s 4 
"type": "and", 
"fields": [ 
{ 
"type": "Or, 
"fields": [ 
{ 
"type": "selector", 
"dimension": "city", 
"value": "beijing" 
] 
{ 
"type": "selector", 
"dimension": "city", 
"value": "shanghai™ 
} 
] 
}, 


站 全 We "mot" 
"fields":{ 

"type": "selector", 
"dimension": "platform", 


i 





4.In 过 滤器 























In 过 滤器 的 使 用 与 选择 过 滤器 类 似 ， 实 现 与 SQL 语句 where 限 制 条 件 中 使 用 的 in 相同 的 过 滤 功 能 。 使 用 In 过 滤器 需要 配置 三 个 配置 项 : type 一 一 过 滤 类 型 值 为 “in”，dimension 一 一 维度 名 称 ，values 
一 一 数组 结构 。 





























通过 示例 展示 与 SQL 语句 中 where city in( ‘beijing”，'‘shanghai，'guangzhou”，'shenzhen”) 等 价 的 查询 规则 ， 定 义 如 下 : 








各 
"type": "in", 
"dimension": "city", 
"values": ["beijing", "shanghai", "guangzhou", "shenzhen"] 
} 
5. 比 较 过 滤器 




















比较 过 滤器 的 实现 同 SQL 语 句 where 限 制 条 件 中 使 用 的 “> =”、“<=”、“>”、“<” 运算 符 ， 在 给 定 的 上 界 、 下 界 范围 之 内 过 滤 。 使 用 比较 过 滤器 有 七 个 配置 项 可 以 配置 : type 过 滤 类 型 值 
为 “bound”，dimension 值 为 维度 名 称 ，lower 值 为 下 界 ，upper 值 为 上 界 ， 上 界 和 下 界 值 的 类 型 都 为 字符 串 ， 字 母 区 分 大 小 写 ， 如 果 值 为 数字 ， 则 设置 配置 项 alphaNumeric 的 值 为 true。|lowerStrict 配 
置 项 表示 是 否 包含 下 界 ， 默 认 包含 下 界 ， 如 果 设 置 值 为 true 表 示 不 包含 下 界 。upperStrict 配 置 项 表示 是 否 包含 上 界 ， 默 认 包含 上 界 ， 如 果 设 置 值 为 true 表 示 不 包含 下 界 。 























通过 示例 展示 与 SQL 语句 中 whereage>=20 and age< =30 等 价 的 查询 规则 ， 定 义 如 下 : 





和 
"type": "bound", 


"dimension": "age", 


"lower":; "20", 
"lowerStrict": true, 
"upper": "30", 


"upperstrict": true, 
"alphaNumeric": true 


6.JavaScript 过 滤器 




















回 





JavaScript 过 滤器 使 用 灵活 方便 ， 可 以 根据 实际 需求 在 不 修改 代码 的 情况 下 实现 自 定义 过 滤 规 则 。 自 定义 规则 通过 JavaScript 冰 数 实现 ， 该 函数 通过 接收 传 入 的 维度 值 和 过 滤 规 则 匹配 ， 匹 配 成 功 返 
true， 反 之 返回 false， 返 回 值 为 false 的 维度 值 将 会 被 过 滤 掉 ， 聚 合计 算 将 会 在 返回 true 的 数据 集 上 进行 计算 。 使 用 Javascript 过 滤器 需要 设施 三 个 配置 项 : type 过 滤 类 型 值 为 “javascript”，dimension 值 
为 维度 名 称 ，function 值 为 JavaScript 函 数 。 
































回 























通过 示例 展示 与 SQL 语句 中 where city='beijing'or city='shanghai' 等 价 的 查询 规则 ， 定 义 如 下 : 





"type"” : "Javascript", 
"dimension™ ; "city", 
"function" : "function (value) { return(value== 'beijing' ||value== 'shanghai') }" 





5.1.3 ”聚合 粒度 





聚合 粒度 通过 “Granularity” 配 置 项 指定 聚合 时 间 跨 度 ， 时 间 跨 度 范 





要 大 于 等 于 创建 索引 时 设置 的 索引 粒度 。Druid 提 供 了 Simple、Duration、Period 三 种 类 型 聚合 粒度 。 











1.Simple 聚 合 粒度 





























Simple 聚 合 粒度 通过 Druid 提 供 的 固定 时 间 粒 度 进 行 聚 合 ， 以 字符 串 形 式 表 示 ， 定 义 查询 规则 中 不 需要 显示 设置 “type” 配 置 项 。 目 前 Druid 提 供 的 常用 Simple 粒 度 : all、none、minute、 
fifteen_minute、thirty_ minute、hour、day， 从 0.9.1 版 本 开始 增加 month、Quarter、year 三 种 粒度 。 





all: 会 将 起 始 和 结束 时 间 内 的 所 有 数据 珍 合 到 一 起 返回 一 个 结果 集 ， 如 果 没 有 指定 起 始 和 结束 时 间 ， 则 返回 数据 源 从 最 早 开始 的 所 有 数据 聚合 之 后 的 结果 集 。 
-none: 按照 索引 创建 时 的 最 小 粒度 做 聚合 计算 ， 最 小 粒度 以 毫秒 为 单位 ， 在 时 间 序 列 查询 类 型 中 不 推荐 使 用 none 粒 度 。 

minute: 以 分 钟 作为 聚合 的 最 小 粒度 。 

"fifteen minute: 以 十 五 分 钟 作 为 聚合 的 最 小 粒度 。 

"thirty_minute: 以 三 十 分 钟 作为 聚合 的 最 小 粒度 。 

-hour: 以 小 时 作为 聚合 的 最 小 粒度 。 

-day: 以 天 作为 聚合 的 最 小 粒度 。 








例如 : 数据 源 ad_event 索 引 粒 度 为 小 时 ， 维 度 为 城市 (city) ， 平 台 (platform) ， 订 单项 id (orderitem_id) ， 指 标 为 曝光 量 (pv_cnt) ， 点 击 量 (click_cnt) 。 包 含 的 所 有 字段 样 例 数据 如 下 : 





2016-12-01T01:00:002 beijing pc 1 100 10 
2016-12-01T01:00:002 shanghai pc 区 120 15 
2016-12-01T01:00:002 guangzhou pc 1 150 10 
2016-12-01T01:00:002 Shenzhen Pc 1 200 18 
2016-12-01T01:00:002 chongqing pc 180 12 
2016-12-01T02:00:002 beijing pc 二 260 30 
2016-12-01T02:00:002 shanghai pc 1 240 20 
2016-12-01T02:00:002 guangzhou pc 下 300 15 
2016-12-01T02:00:002 Shenzhen pc 1 220 20 
2016-12-01T02:00:002 chongqing pc 1 240 站 





当 提 交 以 天 (day) 作为 粒度 的 groupBy 查 询 ， 统 计 2016 年 12 月 01 日 的 曝光 量 ， 曝 光量 的 输出 字段 名 称 为 “pv” ， 查 询 规则 如 下 : 











"queryType":"groupBy", 
"dataSource":"ad event", 
"granularity":"day", 
"dimensions":[ "city" ], 
"aggregations":[ 






"type":"longSum", 


"name":"pv", 
"fieldName":" pv_cnt", 


} 
], 
"intervals":;["2016-12-01/2016-12-02"] 





返回 结果 如 下 : 


上 二 
Vrsdor™ 3 Vln 
"timestamp" : "2016-12-01T00:00:00.0002" 
"event™ : { 
Whoo : 360 
"city" ; "beijing" 
E 
kr 
"version™ : wl", 
"timestamp" : "2016-12-01T00:00:00.0002" 
"event™ : { 
To s 205 
"city" : "chongqing" 
二 
"version™ : "vl", 
"timestamp" :; "2016-12-01T00:00:00.0002Z", 
"event™ : { 
mo 3 4505 
"city" : "guangzhou" 
i 
"version™ : "v1", 
"timestamp" :; "2016-12-01T00:00:00.0002Z", 
"event™ : { 
mo $ 360 
"city" : "shanghai"™ 
} 
a 
"version™ : "vl", 
"timestamp" :; "2016-12-01T00:00:00.0002Z", 
"event™ : { 
"pv" : 420, 
"city" : "shenzhen" 





2.Duration 聚 合 粒度 


























Duration 聚 合 粒度 提供 了 更 加 灵活 的 聚合 粒度 ， 不 只 局 限于 Simple 聚 合 粒度 提供 的 固定 聚合 粒度 ， 而 是 以 毫秒 为 单位 自 定义 聚合 时 间 跨 度 ， 比 如 两 个 小 时 做 一 次 聚合 可 以 设置 duration 配 置 项 为 
7200000 毫 秒 ， 对 于 Simple 聚 合 粒度 不 能 够 满足 的 聚合 粒度 可 以 选用 Duration 聚 合 粒度 。 















































使 用 Duration 聚 合 粒度 需要 设置 配置 项 type 值 为 “duration”。 配 置 项 duration 值 为 时 间 跨 度 ， 单 位 毫秒 。 配 置 项 origin 值 为 起 始 时 间 (UTC 时 间 ) ， 如 果 设 置 该 配置 项 ， 则 提交 的 查询 请 求 将 从 配置 
的 起 始 时 间 开 始 按照 聚合 粒度 返回 查询 结果 。 


实现 上 例 中 相同 功能 的 查询 规则 如 下 : 











"granularity": 
"type":"duration", 
™ duration ":"86400000" 
1 
"dimensions": ["city" ], 
"aggregations":[ 
{ 
"type":"longSum", 
"name": "pv", 


"fieldName":" pv_cnt", 


} 
] 
"intervals": [ "2016-12-01/2016-12-02" ] 





3.Period 聚 合 粒度 



































Period 聚 合 粒度 采用 ISO_8601 提 供 的 日 期 格式 ， 常 用 的 几 种 时 间 跨 度 表示 方式 : 一 小 时 的 表示 方式 是 PT1H， 一 周 的 表示 方式 是 P1W， 一 天 的 表示 方式 是 P1D， 一 个 月 的 表示 方式 是 P1M。 使 用 Period 
聚合 粒度 需要 设置 配置 项 type 值 为 “period”。 配 置 项 period 值 为 ISO_8601 格 式 的 时 间 跨 度 。 配 置 项 zone 值 为 查询 时 区 (可 选项 ) ， 默 认 值 为 UTC 时 间 。 配 置 项 origin 值 为 起 始 时 间 (可 选项 ) ， 默 认 值 为 
1970-01-01T00:00:00。 





























关于 ISO_8601 日 期 格式 的 详细 信息 请 参考 维基 百科 关于 ISO_8601 的 详细 介绍 : https://en.wikipedia.org/wiki/ISO_8601。 














实现 上 例 中 相同 功能 的 查询 规则 如 下 : 








"granularity": 
"type": "period", 
"period":"P1D" 


1 
"dimensions": ["city"], 
"aggregations": [ 

{ 


"type":"longSum", 
"name": "pv", 
"fieldName":" pv_cnt", 
} 
]， 
"intervals": [ "2016-12-01/2016-12-02" ] 
} 





注意 intervals 配 置 项 用 于 设置 查询 数据 源 的 开始 时 间 和 结束 时 间 范 围 ， 设 置 时 间 能 够 缩小 聚合 查询 的 范围 ， 提 高 查询 速度 。 





5.1.4 聚合 器 



































聚合 器 可 以 在 数据 摄 入 阶段 和 查询 阶段 使 用 。 在 数据 摄 入 阶段 使 用 聚合 器 能 够 在 数据 被 查询 之 前 按照 维度 进行 聚合 计算 ， 提 高 查询 阶段 聚合 计算 性 能 。 在 查询 过 程 中 使 用 聚合 器 能 够 实现 各 种 不 同 指标 
的 组 合计 算 。 

















聚合 器 公共 属性 解释 : 

-type: 声明 应 用 的 聚合 器 类 型 。 

-name: 定义 返回 值 的 字段 名 称 ， 相 当 于 SQL 语法 中 的 字段 别名 。 

-fieldName: 数据 源 中 已 定义 的 指标 名 称 ， 该 值 不 可 以 自 定义 ， 必 须 与 数据 源 中 的 指标 名 一 致 























1. 常 用 聚合 器 





(1) CountAggregator 




















计数 聚合 器 ， 等 同 于 SQL 语 法 中 的 “count” 函 数 ， 用 于 计算 Druid rollup 合 并 之 后 的 数据 条 数 ， 并 不 是 报 入 原始 数据 的 条 数 。 在 定义 数据 模式 的 指标 规则 中 必须 添加 一 个 “count” 类 型 的 计数 指 
标 “count”。 计 算 报 入 的 原始 数据 条 数 使 用 longSum 聚 合 器 对 指标 “count” 执 行 求 和 计算 。 
































计数 聚合 器 查询 规则 定义 格式 如 下 : 


{ "type" : "count"， "name" : <output name> } 





(2) Sum Aggregator 





求 和 聚合 器 ， 等 同 于 SQL 语法 中 的 “sum” 函数 ， 用 于 指标 求 和 计算 。Druiq 提 供 两 种 类 型 的 求 和 聚合 器 ， 分 别 是 64 位 长 整 型 求 和 聚合 器 longSum 和 精度 更 高 的 64 位 浮 点 数 求 和 聚合 器 doubleSsum。 


求 和 聚合 器 查询 规则 定义 格式 如 下 : 





{ "type" : "longSum", "name" : <output name>, "fieldName" : <metric name> } 
{ "type" : "doubleSum", "name" : <output name>, "fieldName" : <metric name> } 





(3) Min/Max Aggregator 




















最 小 /最 大 值 聚 合 器 ， 等 同 于 SQL 语 法 中 的 “min”/“max” 函 数 ， 用 于 计算 指定 指标 最 小 /最 大 值 。 


Druid 提 供 了 两 种 精度 不 同 的 最 小 /最 大 聚合 器 ， 查 询 规则 定义 格式 如 下 : 








doubleMin Aggregator 


{ "type" : "doubleMin", "name" : <output name>, "fieldName" : <metric name> } 
doubleMax Aggregator 

{ "type" : "doubleMax", "name" : <output name>, "fieldName" : <metric name> } 
longMin Aggregator 

{ "type" : "longMin", "name" : <output name>, "fieldName" : <metric name> } 
longMax Aggregator 

{ "type" : "longMax", "name" : <output name>, "fieldName" : <metric name> } 





(4) JavaScript Aggregator 


























使 用 JavaScript 聚 合 器 可 以 自 定义 聚合 器 逻辑 ， 如 果 Druid 已 经 提供 其 他 聚合 器 实现 了 最 终 的 需求 ， 最 好 使 用 内 置 的 聚合 器 ， 不 推荐 使 用 JavaScript 聚 合 器 ，JavaScript 聚 合 器 的 性 能 相 比 内 置 聚 合 器 要 


Javascript 聚 合 器 查询 规则 定义 格式 如 下 : 


{ "type": "javascript", 


"name": "<output name>", # 输 出 字段 名 称 
"fieldNames" : [<columnl>, <column2>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/...], # 参 与 聚合 计算 的 指标 列表 
"fnAggregate" : "function(current, columnl, column2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPSVText/...){ 


# 聚 合 函数 方法 体 ， 实 现 局 部 聚合 
return <updated partial aggregate> 
让 
"fnCombine" :"function (partialA, partialB) { 
# 合 并 局 部 聚合 结果 


return <combined partial results>; 


j" 
"fnReset":"funCtion() {return <initial value>;}" # 返 回 初 始 值 





(5) DataSketche Aggregator 




















DataSketche 近 似 基数 计算 聚合 器 ， 使 用 该 聚合 器 需要 下 载 DataSketche 依 赖 组 件 ， 并 且 在 conf/druid/_common/common.runtime.properties 配 置 文件 中 声明 加 载 依赖 druid.extensions.loadList= 
["druid-datasketches"]。 






































常用 使 用 场景 : 高 基数 维度 的 去 重 计算 ， 如 独立 用 户 数 UV 计算 ， 在 大 数据 集中 计算 独立 用 户 数 是 一 个 特别 耗 时 耗资 源 的 计算 ， 而 且 在 Druid 中 存储 如 UUID、USERID 等 高 基数 维度 的 数据 发 挥 不 出 
rollup 特 性 。 












































DataSketche 聚 合 器 的 使 用 需要 在 数据 报 入 阶段 使 用 ， 其 属性 说 明 如 表 5-1 所 示 。 











表 5-1 DataSketche 聚 合 器 的 属性 说 明 


属性 是 否 必须 
type 设置 值 为 “thetaSketch” yes 


name 输出 字段 名 称 yes 


属性 是 否 必须 
在 数据 摄 入 阶段 的 索引 过 程 中 使 用 ， 表 示 输 入 的 数据 源 是 否 包 含 sketch 
结构 ， 默 认 值 false 
在 sketch 中 存储 的 最 大 条 目 数 ， 在 创建 索引 时 sketch 存储 在 Segment 
size 中 ,Size 值 越 大 计算 精度 越 高 ， 占 用 存储 空间 越 大 ， 查 询 性 能 也 随 之 降低 。 no 
如 果 修 改 该 值 应 该 设置 为 2 的 寡 次 方 ， 推 荐 使 用 默认 值 16384 


isInputThetaSketch no 





Datasketche 聚 合 器 在 数据 摄 入 阶段 规则 定义 格式 如 下 : 





"type" : "thetaSketch", 
"name" : <output name>, 
"fieldName" : <metric name>, 
"isInputThetaSketch": false, 
"size": 16384 





DataSketche 聚 合 器 在 查询 阶段 规则 定义 格式 如 下 : 








"type" : "thetaSketch", 
"name" : <output name>, 
"fieldName" : <metric name> 
} 
2. 后 聚合 器 






































post-aggregator 后 聚合 器 用 于 对 聚合 结果 进行 二 次 处 理 的 计算 ， 使 用 后 聚合 器 时 涉及 的 指标 在 聚合 计算 的 过 程 中 都 要 包含 ， 否 则 无 法 正常 使 用 。 通 过 一 个 SQL 语句 来 说 明 这 句 话 的 含义 ， 为 了 突出 后 
聚合 的 语义 效果 没有 使 用 一 次 查询 完成 ， 而 是 使 用 嵌 套 查询 。 
























































样 例 : 从 ad_event 表 计算 日 期 20161201 的 广告 总 点 击 量 、 曝 光量 和 曝光 率 ， 曝 光 率 等 于 点 击 量 除 以 曝光 量 ， 报 关 率 的 计算 在 Druid 查 询 中 需要 使 用 后 聚合 器 实现 。 
































select t,. click cnt,t. pv_cnt, (t.click/t.pv*100) click rate 


Erom( 
select sum(click cnt) click cnt),sum(PV_cnt) pv_cnt 
from ad event 站 加 加 
where dt="'20161201' 

请 才 


等 价 的 带 有 后 聚合 查询 规则 定义 如 下 : 





"aueryType": "groupBy", 
"dataSource": "ad event", 
"granularity": "day", 
"intervals": [ 

"01L6-12=01/2016-12=02" 
]， 


"aggregations": [ 
"type": "longSum", 


"name": "pv_cnt", 
"fieldName": "pv_cnt™ 


"type": "longSum", 





"name": "click cnt", 
"fieldName": "click cnt" 
} 
]， 
"postAggregations": [ 
{ 
"type": "arithmetic", 
"name": "click rate", 
nmfnn: nn, 
"fields": [ 
{ 
"type": "arithmetic", 
"name": "div", 
mnfnn: n/n, 
"fields": [ 
"type": "fieldAccess", 
name": "click cnt", 
"fieldName": "click cnt" 
] 
{ 
"type": "fieldAccess", 
”name "pv cnt"y 
"fieldName": "pv_cnt" 
} 
] 
$b 
{ 
"type":; "constant", 
"name": "const"™", 
"value": 100 





























目前 Druid 提 供 了 Arithmetic post-aggregator 算 数 运 算 后 聚合 器 ， 还 有 个 人 认为 是 辅助 其 他 后 聚合 器 使 用 的 Field accessorpost-aggregator 和 Constant post-aggregator 两 种 类 型 后 聚合 器 。Field 
accessor 类 型 的 后 聚合 器 定义 引用 哪些 聚合 指标 。Constant 类 型 的 后 聚合 器 返回 一 个 常数 值 ， 常 用 于 辅助 其 他 后 聚合 器 进行 组 合 运算 。 



























































类 似 上 例 中 点 击 率 的 计算 过 程 ， 通 过 Field accessor 后 聚合 器 引用 曝光 量 和 点 击 量 两 个 聚合 指标 ， 除 运算 后 聚合 器 根据 点 击 量 和 曝光 量 的 比率 ， 由 于 点 击 率 需要 乘 以 100， 则 使 用 Constant 后 聚合 器 返回 
常数 100， 再 次 调用 乘 后 聚合 器 将 常数 100 与 第 一 次 后 聚合 器 返回 结果 相 乘 ， 最 终 返回 结果 集 。 












































回 




















算数 运算 后 聚合 器 提供 基础 的 加 “+”、 减 “-”、 乘 ““” 、 除 从 和 “quotient” 商 算数 运算 。 使 用 除 人 ”运算 时 ， 如 果 除 数 为 0 则 直接 返回 结果 0。 








算数 运算 后 聚合 器 规则 定义 格式 如 下 : 





postAggregation : { 
"type" : "arithmetic", 
"name" : <output name>, 
"fn" : <arithmetic function>, 
"fields": [<post aggregator>, <post aggregator>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OERBPSVText/...]， 
"ordering" : <null (default), or "numericFirst"> | 












































与 常用 聚合 器 相同 ， 在 Druid 中 也 提供 了 JavaScript 后 聚合 器 用 于 自 定义 实现 定制 逻辑 的 后 聚合 器 ，JavaScript 后 聚合 器 性 能 相对 内 置 后 聚合 器 要 差 一 些 ， 如 果 内 置 后 聚合 器 能 够 满足 需求 ， 建 议 尽量 使 
内 置 后 聚合 器 。JavaScript 后 聚合 器 的 规则 定义 格式 如 下 : 









































postAggregation : { 
"type": "javascript", 
"name": <output name>, 
"fieldNames" : [<aggregator name>, <aggregator name>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/...], 
"function": <javascript function> 





第 5 章 ”Druid 客 户 端 
5.1 涉及 组 件 


5.1.1 ”查询 相关 


1 数据 源 





Druid 中 的 数据 源 与 我 们 比较 熟悉 的 关系 数据 库 中 表 的 概念 等 同 ， 所 有 分 析 查 询 都 是 基于 数据 源 进行 分 析 计 算 。 在 “groupBy” 查 询 中 提供 了 类 似 子 查询 的 功能 。 下 面 介绍 常用 的 三 种 数据 源 。 

















(1) 单 表 数 据 源 

















最 常用 的 数据 源 ， 定 义 方式 如 下 : 








"type": "table", 
name": "<string value>" 


























在 实际 使 用 中 可 以 直接 用 字符 串 表 示 ， 下 面 以 时 间 序 列 查询 举例 说 明 : 按 天 粒度 查询 数据 源 “ad_event” 在 2016-12-01 到 2016-12-03 时 间 区 间 内 数据 总 量 。 查 询 规则 定义 如 下 : 




















"queryType": "timeseries", 
"dataSource": "ad event", 
"granularity": "day", 
"aggregations": [ 
{ "type": "longSum", "name": "count", "fieldName": "count" } 


] 
"intervals": [ "2016-12-01/2016-12-03” ] 








返回 结果 : 
[ 
"timestamp" : "2016-12-01T00:00:00.0002Z", 
eoemltt 
"oount™ 3 .10 
} 
ly + 
"timestamp" :; "2016-12-02T00:00:00.0002Z", 
"result" : { 
rent 5 TO 


i 
| 





(2) 联合 数据 源 











联合 数据 源 表示 将 多 个 数据 源 联合 起 来 作为 一 个 数据 源 ， 在 使 用 过 程 中 联合 的 多 个 数据 源 的 数据 模式 要 保持 一 致 ， 并 且 只 能 通过 Broker 或 者 路 由 节点 查询 ， 不 能 直接 请 求 Historical 节 点 查询 。 定 义 方式 
如 下 : 











"type": "union™, 
"dataSources": ["dataSourcel", " dataSource2", http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/... ] 











下 面 以 时 间 序 列 查询 举例 说 明 : 按 天 粒度 查询 数据 源 “ad_event” 和 “ad_event repl” 在 2016-12-01 到 2016-12-03 时 间 区 间 内 的 数据 总 量 ， 为 了 说 明 问 题 ， 创 建 “ad_event” 数据 源 的 副本 数据 
源 “ad_event_repl”， 此 时 查询 的 数据 总 量 应 该 等 于 上 例 中 查询 结果 的 两 倍 。 查 询 规则 定义 如 下 : 





"queryType": "timeseries", 
"dataSource": { 
"type": "union", 
"dataSources": ["ad event"," ad event repl "] 
] 
"granularity": "day", 
"aggregations": [ 
{ "type": "longSum", "name": "count", "fieldName": "count" } 


]， 
"intervals": [ "2016-12-01/2016-12-03" ]， 
} 








返回 结果 : 
人 
"timestamp" :; "2016-12-01T00:00:00.0002Z", 
"result" : { 
"count™ : 20 
i 
i 
"timestamp" :; "2016-12-02T00:00:00.0002Z", 
CE 
"oountY : 20 


} 
1 





(3) 查询 数据 源 





查询 数据 源 类 似 嵌 套 查询 ， 内 层 查询 的 结果 作为 外 层 查询 的 数据 源 。 目 前 只 支持 将 “groupBy” 的 查询 结果 作为 查询 数据 源 ， 定 义 方式 如 下 : 








"type": "query", 
nguery": 1 

"type": "groupBy", 

http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/O0EBPS/Text/... 


} 





2. 查 询 上 下 文 


Context 查 询 上 下 文 参数 主要 在 查询 规则 中 使 用 ， 可 选 参数 如 下 所 示 : 


'timeout: 超时 时 间 ， 超 过 超时 时 间 没有 完成 的 任务 会 被 取消 ， 默 认 值 0 (没有 超时 时 间 ) ， 单 位 是 毫秒 。 

-priority: 查询 优先 级 ， 具 有 高 优先 级 的 查询 优先 获取 到 查询 资源 ， 默 认 值 0。 

-queryId: 查询 唯一 标识 ， 如 果 设 置 了 queryId 或 者 已 知 queryId， 可 以 使 用 queryId 取 消 查询 。 

useCache: 是 否 将 查询 保存 到 查询 缓存 ， 这 个 配置 会 覆盖 Broker 或 者 Historical 的 配置 ， 默 认 值 true。 

-populateCache: 是 否 将 查询 结果 保存 到 查询 缓存 ， 主 要 用 于 调试 。 这 个 配置 会 覆盖 Broker 或 者 Historical 的 配置 ， 默认 值 true。 
“bySegment: 返回 “by segment”“ 结 果 ， 主 要 用 于 调试 ， 如 果 设 置 为 Lrue， 将 会 返回 与 结果 相关 联 的 数据 段 信息 ， 默 认 值 false。 


chunkPeriod: Broker 节 点 ， 长 时 间 间 隔 的 查询 〈 任 何 类 型 ) 会 被 分 成 多 个 短 时 间 间 隔 的 查询 ， 减 少 对 资源 的 影响 。 使 用 ISO_8601 时 间 格 式 定义 周期 ， 如 : 当 一 个 查询 的 时 间 间 隔 覆盖 一 年 ， 如 果 这 个 属相 设置 PIM (一 个 
月 ) ， 将 按 月 被 拆 分 成 12 个 更 小 的 查询 ， 所 有 的 查询 会 被 异步 执行 处 理 ， 确 保 "druid.processing.numThreads" 设 置 适 当 的 什 ， 默 认 值 0。 


:SkipEmptyBuckets: Timeseries 时 间 序 列 查询 返回 结果 没有 值 时 会 自动 补 零 ， 该 属性 值 设 置 为 true 将 跳 过 空 值 的 结果 。 
-minTopNThreshold: 每 一 个 Segment 的 结果 合并 到 一 起 ， 组 成 一 个 全 局 的 TopN 结 果 集 的 最 小 结果 数 ， 默 认 值 1000。 
ee “groupBy” 查 询 返 回 最 大 结果 数 。 默 认 在 Broker 和 Historical 节 点 配置 文件 中 调整 druid.query.groupBy .maxResults 值 ， 查 询 规则 中 改变 最 大 结果 数 必须 小 于 Broker 和 Historical 节 点 中 设置 的 值 ， 默 认 
i.500000。 
-maxIntermediateRows: “groupBy” 查 询 处 理 单个 Segment 的 最 大 中 间 行 数 。 默 认 在 Broker 和 historical 节 点 配置 文件 中 调整 druid.query.groupBy.maxIntermediateRows 值 ， 查 询 规 则 中 改变 最 大 中 间 行 数 必须 小 于 
Broker 和 Historical 节 点 中 设置 的 值 ， 默 认 值 50000。 








“groupByIsSingleThreaded: 是 否 使 用 单独 线程 处 理 "groupBy” 查 询 。 默 认 在 historical 节 点 修改 druid.query.groupBy.singleThreaded 值 来 调整 ， 默 认 值 false。 


5.1.2， 过 滤器 














Druid 中 的 过 滤 条 件 类 似 SQL 语 句 中 的 “where” 限 制 条 件 ， 用 于 过 滤 无 效 数据 ， 提 高 聚合 计算 查询 性 能 。 在 定义 查询 规则 时 通过 “filter” 配 置 项 添加 过 滤 规 则 ，“filter” 配 置 项 的 值 为 定义 过 滤 规则 
的 JSJON 对 象 。 下 面 介绍 几 种 常用 的 过 滤 条 件 。 


















































选择 过 滤 是 最 常用 、 最 简单 、 也 是 最 直接 的 一 种 过 滤 方 式 ， 等 同 于 SQL 语句 “where” 限 制 条 件 中 的 “column=value” 。 使 用 选择 过 滤 需 要 配置 三 个 配置 项 : type 一 一 过 滤 类 型 值 
为 “selector”，dimension 一 一 需要 过 滤 的 维度 名 称 ，value 一 一 过 滤 的 维度 值 。 








实现 SQL 语句 中 “where city= “beijing ”的 选择 过 滤 配 置 项 为 : “filter” :{ “type” : “selector” ，“dimension” : “city” ，“value” : “Beijing” } 


2. 正 则 表达 式 过 滤器 















































正则 表达 式 过 滤器 通过 使 用 Java 正 则 表达 式 匹配 维度 值 获取 满足 条 件 的 数据 ， 正 则 表达 式 过 滤器 的 使 用 非常 简单 ， 需 要 配置 三 个 配置 项 : type 一 一 过 滤 类 型 值 为 “regex”，dimension 一 一 需要 过 滤 
的 维度 名 称 ，pattern 一 一 过 滤 使 用 的 正则 表达 式 。 















































样 例 配置 规则 如 下 : 





"filter": { "type": "regex", "dimension": <dimension string>, "pattern": <pattern string> } 


3. 逻 辑 过 滤器 


























逻辑 过 滤器 提供 与 、 或 、 非 三 种 逻辑 关系 过 滤 ， 逻 辑 过 滤器 的 使 用 需要 配置 两 个 配置 项 : type 一 一 过 滤 类 型 值 为 “and” “or”“not”， 表 示 与 、 或 、 非 三 种 逻辑 关系 ; fields 值 为 JJON 数 组 ， 数 组 
中 定义 不 同 的 子 过 滤器 ， 子 过 滤器 可 以 使 用 其 他 类 型 的 任何 过 滤器 ， 他 们 之 间 的 逻辑 关系 就 是 type 配 置 项 定义 的 逻辑 关系 。 
































样 例 配置 规则 如 下 : 





"filter": { "type": "and", "fields": [<filter>, <filter>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...] } 


"filter": { "type": "or", "fields": [<filter>, <filter>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/. pn 
"filter": { "type": "not", "field": <filter> } 





通过 示例 展示 与 SQL 语句 中 where(city='beijing'or city='shanghai)and platform!='pc' 等 价 的 查询 规则 ， 定 义 如 下 : 





"ilter™ 4 
"type": "and", 
"fields": [ 
{ 
"type": "or", 
"fields": [ 


"type": "selector" 证 





"dimen. yoity"y 
"value": "beijing" 
ks 
{ 
"type": "selector", 
"dimension": “city", 
"value": "shanghaim 


"type": "not", 
"fields":{ 
"type": "selector", 
"dimension": "platform", 
"value": "pcn 


LE: 


4.In 过 滤器 





























In 过 滤器 的 使 用 与 选择 过 滤器 类 似 ， 实 现 与 SQL 语句 where 限 制 条 件 中 使 用 的 in 相同 的 过 滤 功 能 。 使 用 In 过 滤器 需要 配置 三 个 配置 项 : type 一 一 过 滤 类 型 值 为 “in”，dimension 一 一 维度 名 称 ，values 
一 一 数组 结构 。 























通过 示例 展示 与 SQL 语句 中 where city in( ‘beijing”，'‘shanghai，'guangzhou”，'shenzhen”) 等 价 的 查询 规则 ， 定 义 如 下 : 





























四 
"type": "in", 
"dimension" : "city", 
"values": ["beijing", "shanghai", "guangzhou","shenzhen"] 
} 
5. 比 较 过 滤器 
比较 过 滤器 的 实现 同 SQL 语 句 where 限 制 条 件 中 使 用 的 “>=”、“<=”、“>”、“<” 运 算 符 ， 在 给 定 的 上 界 、 下 界 范围 之 内 过 滤 。 使 用 比较 过 滤器 有 七 个 配置 项 可 以 配置 : type 过 滤 类 型 值 























为 “bound”，dimension 值 为 维度 名 称 ，lower 值 为 下 界 ， a 上 界 和 下 界 值 的 类 型 都 为 字符 串 ， 字 母 区 分 大 小 写 ， 如 果 值 为 数字 ， 则 设置 配置 项 alphaNumeric 的 值 为 true。lowerstrict 配 
置 项 表示 是 否 包 含 下 界 ， 默 认 包含 下 界 ， 如 果 设 置 值 为 true 表 示 不 包含 下 界 。upperstrict 配 置 项 表示 是 否 包含 上 界 ， 默 认 包含 上 界 ， 如 果 设 置 值 为 true 表 示 不 包含 下 界 。 





通过 示例 展示 与 SQL 语句 中 whereage>=20 and age<=30 等 价 的 查询 规则 ， 定 义 如 下 : 





和 
"type": "bound", 
"dimension": "age", 
"lower": "20", 
"JowerStrict": true, 
"upper": "30" 


’ 
"upPPerStrict": true, 
"alphaNumeric": true 





6.JavaScript 过 滤器 

















回 








JavasScript 过 滤器 使 用 灵活 方便 ， 可 以 根据 实际 需求 在 不 修改 代码 的 情况 下 实现 自 定义 过 滤 规 则 。 自 定义 规则 通过 JavaScript 函 数 实 现 ， 该 函数 通过 接收 传 入 的 维度 值 和 过 滤 规 则 匹配 ， 匹 配 成 功 返 
true， 反 之 返回 false， 返 回 值 为 false 的 维度 值 将 会 被 过 滤 掉 ， 聚 合计 算 将 会 在 返回 true 的 数据 集 上 进行 计算 。 使 用 Javascript 过 滤器 需要 设施 三 个 配置 项 : type 过 滤 类 型 值 为 “javascript”，dimension 值 
为 维度 名 称 ，function 值 为 Javascript 函 数 。 



































通过 示例 展示 与 SQL 语句 中 where city='beijing'or city='shanghai' 等 价 的 查询 规则 ， 定 义 如 下 : 








"type" : "javascript", 
"dimension™ : "city", 
"function" : "function(value) { return(value== 'beijing' ||value== 'shanghai') }" 
} 
5.1.3 ”聚合 粒度 





聚合 粒度 通过 “Granularity” 配 置 项 指定 聚合 时 间 跨 度 ， 时 间 跨 度 范围 要 大 于 等 于 创建 索引 时 设置 的 索引 粒度 。Druid 提 供 了 Simple、Duration、Period 三 种 类 型 聚合 粒度 。 











1.Simple 聚 合 粒度 





























Simple 聚 合 粒度 通过 Druid 提 供 的 固定 时 间 粒 度 进 行 聚合 ， 以 字符 串 形式 表示 ， 定 义 查询 规则 中 不 需要 显示 设置 “type” 配 置 项 。 目 前 Druid 提 供 的 常用 Simple 粒 度 : all、none、minute、 
fifteen_minute、thirty_ minute、hour、day， 从 0.9.1 版 本 开始 增加 month、Quarter、year 三 种 粒度 。 





'al1: 会 将 起 始 和 结束 时 间 内 的 所 有 数据 聚合 到 一 起 返回 一 个 结果 集 ， 如 果 没 有 指定 起 始 和 结束 时 间 ， 则 返回 数据 源 从 最 早 开始 的 所 有 数据 聚合 之 后 的 结果 集 。 
none: 按照 索引 创建 时 的 最 小 粒度 做 聚合 计算 ， 最 小 粒度 以 毫秒 为 单位 ， 在 时 间 序列 查询 类 型 中 不 推荐 使 用 none 粒 度 。 

-minute: 以 分 钟 作为 聚合 的 最 小 粒度 。 

-fifteen_minute: 以 十 五 分 钟 作 为 聚合 的 最 小 粒度 。 

-thirty_minute: 以 三 十 分 钟 作为 聚合 的 最 小 粒度 。 

“hour: 以 小 时 作为 聚合 的 最 小 粒度 。 

day: 以 天 作为 聚合 的 最 小 粒度 。 





例如 : 数据 源 ad_event 索 引 粒 度 为 小 时 ， 维 度 为 城市 (city) ， 平 台 (platform) ， 订 单项 id (orderitem id) ， 指 标 为 曝光 量 (pv_cnt) ， 点 击 量 (click_cnt) 。 包 含 的 所 有 字段 样 例 数据 如 下 : 








2016-12-01T01:00:002 beijing pc 1 100 10 
2016-12-01T01:00:002 shanghai pc bl 120 15 
2016-12-01T01:00:002 guangzhou pc 1 150 10 
2016-12-01T01:00:002 Shenzhen Pc 1 200 18 
2016-12-01T01:00:002 chongqing pc 1 180 12 
2016-12-01T02:00:002 beijing pc 1 260 30 
2016-12-01T02:00:002 shanghai pc 1 240 20 
2016-12-01T02:00:002 guangzhou pc 灿 300 15 
2016-12-01T02:00:002 Shenzhen Pe 1 220 20 
2016-12-01T02:00:002 chongqing pc 1 240 10 








当 提 交 以 天 (day) 作为 粒度 的 groupBy 查 询 ， 统 计 2016 年 12 月 01 日 的 曝光 量 ， 曝 光量 的 输出 字段 名 称 为 “pv” ， 查 询 规则 如 下 : 











"queryType" : "grOouPBY"， 
"dataSource":"ad event", 
"granularity":"day", 
"dimensions":[ "city" ], 
"aggregations":[ 


"type": "longSum", 
"name": "pv", 
"fieldName":" pv_cnt", 
} 
], 
"intervals": ["2016-12-01/2016-12-02"] 





返回 结果 如 下 : 





EL 


"version™ : "vl", 
"timestamp" : "2016-12-01T00:00:00.0002" 
"event™ ; { 
EGG s 360 
"city" : "beijing" 
i 
Ey 1 
"version™ ; "vl", 
"timestamp" : "2016-12-01T00:00:00.0002" 
"event™ ; { 
mw s A420 
"city" : "chongqing" 
i 
,+{ 


"version™ : "vl", 
"timestamp" : "2016-12-01T00:00:00.0002" 
"event™" ; { 
new 3 A450 
"city" : "guangzhou" 
i 
Ey 1 
"version™ : "vl", 
"timestamp" : "2016-12-01T00:00:00.0002" 
"event™ ; { 
Woo™ s 3607 
"city" : "shanghai" 
} 
ly +{ 
Vrsior™ § ln 
"timestamp" : "2016-12-01T00:00:00.0002" 
"event™ : { 
Woo™ 3 420. 
"city" : "shenzhen™" 





2.Duration 聚 合 粒度 























Duration 聚 合 粒度 提供 了 更 加 灵活 的 聚合 粒度 ， 不 只 局 限于 Simple 聚 合 粒度 提供 的 固定 聚合 粒度 ， 而 是 以 毫秒 为 单位 自 定义 聚合 时 间 跨 度 ， 比 如 两 个 小 时 做 一 次 聚合 可 以 设置 duration 配 置 项 为 
7200000 毫 秒 ， 对 于 Simple 聚 合 粒度 不 能 够 满足 的 聚合 粒度 可 以 选用 Duration 聚 合 粒度 。 












































使 用 Duration 聚 合 粒度 需要 设置 配置 项 type 值 为 “duration”。 配 置 项 duration 值 为 时 间 跨 度 ， 单 位 毫秒 。 配 置 项 origin 值 为 起 始 时 间 (UTC 时 间 ) ， 如 果 设 置 该 配置 项 ， 则 提交 的 查询 请 求 将 从 配置 








的 起 始 时 间 开 始 按照 聚合 粒度 返回 查询 结果 。 


实现 上 例 中 相同 功能 的 查询 规则 如 下 : 





"queryType":"groupBy", 
"dataSource":"ad event ", 
"granularity":{ ~ 
"type":"duration", 
™ duration ":"86400000"™ 


1 
"dimensions": ["city" ], 
"aggregations":[ 

{ 


"type":"longSum", 
"name": "pv", 
"fieldName":" pv_cnt", 
} 
Js 
"intervals": [ "2016-12-01/2016-12-02" ] 





3.Period 聚 合 粒度 





























Period 聚 合 粒度 采用 1SO_8601 提 供 的 日 期 格式 ， 常 用 的 几 种 时 间 跨 度 表示 方式 : 一 小 时 的 表示 方式 是 PT1H， 一 周 的 表示 方式 是 P1W， 一 天 的 表示 方式 是 P1D， 一 个 月 的 表示 方式 是 P1M。 使 用 Period 
聚合 粒度 需要 设置 配置 项 type 值 为 “period”。 配 置 项 period 值 为 ISO_8601 格 式 的 时 间 跨 度 。 配 置 项 zone 值 为 查询 时 区 (可 选项 ) ， 默 认 值 为 UTC 时 间 。 配 置 项 origin 值 为 起 始 时 间 (可 选项 ) ， 默 认 值 为 











1970-01-01T00:00:00。 


























关于 ISO_8601 日 期 格式 的 详细 信息 请 参考 维基 百科 关于 ISO_8601 的 详细 介绍 : https://en.wikipedia.org/wiki/ISO_8601。 














实现 上 例 中 相同 功能 的 查询 规则 如 下 : 





"queryType": "groupBy", 
"dataSource":"ad event ", 
"granularity":{ 
"type": "period", 
"period" :"P1D" 
] 
"dimensions": ["city"], 
"aggregations":[ 
{ 


"type":"longSum", 
"name": "pv", 
"fieldName":" pv_cnt", 


} 


Js 
"intervals": [ "2016-12-01/2016-12-02" ] 
} 


人 @ 注 总 intervals 配 置 项 用 于 设置 查询 数据 源 的 开始 时 间 和 结束 时 间 范 围 ， 设 置 时 间 能 够 缩小 聚合 查询 的 范围 ， 提 高 查询 速度 。 





5.1.4 聚合 器 


























聚合 器 可 以 在 数据 摄 入 阶段 和 查询 阶段 使 用 。 在 数据 摄 入 阶段 使 
的 组 合计 算 。 

















聚合 器 公共 属性 解释 : 
-type: 声明 应 用 的 聚合 器 类 型 。 
-name: 定义 返回 值 的 字段 名 称 ， 相 当 于 SOL 语 法 中 的 字段 别名 。 























聚合 器 能 够 在 数据 被 查询 之 前 按照 维度 进行 聚合 计算 ， 提 高 查询 阶段 聚合 计算 性 能 。 在 查询 过 程 中 使 用 聚合 器 能 够 实现 各 种 不 同 指标 








"fielgName: 数据 源 中 已 定义 的 指标 名 称 ， 该 值 不 可 以 自 定义 ， 必 须 与 数据 源 中 的 指标 名 一 致 。 


1. 常 用 聚合 器 





(1) CountAggregator 














计数 聚合 器 ， 等 同 于 SQL 语 法 中 的 “count” 函 数 ， 用 于 计算 Druid rollup 合 并 之 后 的 数据 条 数 ， 并 不 是 摄 入 原始 数据 的 条 数 。 在 定义 数据 模式 的 指标 规则 中 必须 添加 一 个 “count” 类 型 的 计数 指 














标 “count”。 计 算 摄 入 的 原始 数据 条 数 使 用 longSum 聚 合 器 对 指标 “ 





计数 聚合 器 查询 规则 定义 格式 如 下 : 























count” 执 行 求 和 计算 。 





{ "type" : "count", "name" : <output name> } 





(2) Sum Aggregator 





求 和 聚合 器 ， 等 同 于 SQL 语法 中 的 “sum” 函数 ， 用 于 指标 求 和 计算 。Druiq 提 供 两 种 类 型 的 求 和 聚合 器 ， 分 别 是 64 位 长 整 型 求 和 聚合 器 ongSum 和 精度 更 高 的 64 位 浮 点 数 求 和 聚合 器 doubleSsum。 


求 和 聚合 器 查询 规则 定义 格式 如 下 : 





{ "type" : "longSum", "name" : <output name>, "fieldName™" : 


{ "type" : "doubleSum", "name" : <output name>, "fieldName 


<metric name> } 
: <metric name> } 





(3) Min/Max Aggregator 








最 小 /最 大 值 聚 合 器 ， 等 同 于 SQL 语 法 中 的 “min”/“max” 函 数 ， 








于 计算 指定 指标 最 小 /最 大 值 。 








Druid 提 供 了 两 种 精度 不 同 的 最 小 /最 大 聚合 器 ， 查 询 规则 定义 格式 如 下 : 





doubleMin Aggregator 


{ "type" : "doubleMin", "name" : <output name>, "fieldName" : <metric name> } 
doubleMax Aggregator 国 加 

{ "type" : "doubleMax", "name" : <output name>, "fieldName" : <metric name> } 
longMin Aggregator a 

{ "type" : "longMin", "name" : <output name>, "fieldName" : <metric name> } 
longMax Aggregator 

{ "type" : "longMax", "name" : <output name>, "fieldName" : <metric name> } 





(4) JavaScript Aggregator 


























使 用 Javascript 聚 合 器 可 以 自 定义 聚合 器 逻辑 ， 如 果 Druid 已 经 提供 其 他 聚合 器 实现 了 最 终 的 需求 ， 最 好 使 用 内 置 的 聚合 器 ， 不 推荐 使 用 JavaScript 聚 合 器 ，JavasScript 聚 合 器 的 性 能 相 比 内 置 聚合 器 要 


Javascript 聚 合 器 查询 规则 定义 格式 如 下 : 








{ "type": "javascript", 


"name": "<output name>", # 输 出 字段 名 称 
"fieldNames™" : [<columnl>, <column2>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...], # 参 与 聚合 a 指标 列表 
"fnAggregate" : "function(current, columnl1, column2, http://www.hzcourse.com/resource/readBook?path=/openresources/teach :4 ebook/uncompressed/16525/0EBPS/Text/.. 


# 聚 合 函数 方法 体 ， 实 现 局 部 聚合 
return <updated partial aggregate> 


Fe 
"fnCombine":"function (partialA, partialB) { 
# 合 并 局 部 聚合 结果 


return <combined partial results>; 


La 
"fnReset":"function() {return <initial value>;}" # 返 回 初 始 值 


(5) DataSketche Aggregator 














DataSketche 近 似 基数 计算 聚合 器 ， 使 用 该 聚合 器 需要 下 载 DataSketche 依 赖 组 件 ， 并 且 在 conf/druid/_common/common.runtime.properties 配 置 文件 中 声明 加 载 依赖 druid.extensions.loadList= 
["druid-datasketches"]。 



























































常用 使 用 场景 : 高 基数 维度 的 去 重 计算 ， 如 独立 用 户 数 UV 计算 ， 在 大 数据 集中 计算 独立 用 户 数 是 一 个 特别 耗 时 耗资 源 的 计算 ,而 且 在 Druid 中 存储 如 UUID、USERID 等 高 基数 维度 的 数据 发 挥 不 出 
rollup 特 性 。 


























DataSketche 聚 合 器 的 使 用 需要 在 数据 报 入 阶段 使 用 ， 其 属性 说 明 如 表 5-1 所 示 。 




















表 5-1 DataSketche 聚 合 器 的 属性 说 明 


属性 是 否 必须 


type 设置 值 < “thetaSketch ” yes 
name yes 
( 续 ) 


属 性 是 否 必须 
ed 的 索引 过 程 中 使 用 ， 表 示 输 入 的 数据 源 是 否 包 含 sketch 
结构 ， 默 认 值 false 
在 sketch 中 存储 的 最 大 条 目 数 ， 在 创建 索引 时 sketch 存储 在 Segment 
size 中 ,Size 值 越 大 计算 精度 越 高 ， 占 用 存储 空间 越 大 ， 查 询 性 能 也 随 之 降低 。 no 
如 果 修 改 该 值 应 该 设置 为 2 的 寡 次 方 ， 推 荐 使 用 默认 值 16384 


isInputThetaSketch no 








DataSketche 聚 合 器 在 数据 摄 入 阶段 规则 定义 格式 如 下 : 


"type" : "thetaSketch", 
"name" : <output name>, 
"fieldName" : <metric name>, 
"isInputThetaSketch": false, 
"size": 16384 





DataSketche 聚 合 器 在 查询 阶段 规则 定义 格式 如 下 : 


"type" : "thetaSketch", 
"name" : <output name>, 
"fieldName" : <metric name> 
} 
2. 后 聚合 器 





















































post-aggregator 后 聚合 器 用 于 对 聚合 结果 进行 二 次 处 理 的 计算 ， 使 用 后 聚合 器 时 涉及 的 指标 在 聚合 计算 的 过 程 中 都 要 包含 ， 否 则 无 法 正常 使 用 。 通 过 一 个 SQL 语句 来 说 明 这 句 话 的 含义 ， 为 了 突出 后 
聚合 的 语义 效果 没有 使 用 一 次 查询 完成 ， 而 是 使 用 嵌 套 查询 。 


















































样 例 : 从 ad_event 表 计算 日 期 20161201 的 广告 总 点 击 量 、 曝 光量 和 曝光 率 ， 曝 光 率 等 于 点 击 量 除 以 曝光 量 ， 报 关 率 的 计算 在 Druid 查 询 中 需要 使 用 后 聚合 器 实现 。 


























Select 七 ， click cnt,t. pv_cnt, (t.click/t.pv*100) click rate 
from( 
select sum(click cnt) click cnt),sum(pv_cnt) pv_cnt 
from ad event 
where dt="'20161201' 





等 价 的 带 有 后 聚合 查询 规则 定义 如 下 : 





"queryType": "groupBy", 


"dataSource": "ad event", 
"granularity": "day", 
"intervals"; 


"2016-12-01/2016-12=02" 


’ 
"aggregations": [ 
{ 
"type": "longSum", 
人 : "pv_cnt", 
"fieldName": "pv_cnt™ 


"type": "longSum", 
"ss "eliok cnt" 
"fieldName": "click cnt" 
} 
] 


1 
ostAggregations": [ 
{ 


"type": "arithmetic", 





name": "click rate", 
fn nn, = 
"fields": [ 
{ 
"type": "fieldAccess", 
name": "click cnt", 
"fieldName": "click cnt" 
}, 
{ 
"type": "fieldAccess", 
"name": "pv_cnt", 
"fieldName": "pv_cnt™ 
} 
] 
二 
{ 


"type"; "constant", 
"name": "const", 
"value": 100 




















目前 Druid 提 供 了 Arithmetic post-aggregator 算 数 运 算 后 聚合 器 ， 还 有 个 人 认为 是 辅助 其 他 后 聚合 器 使 用 的 Field accessorpost-aggregator 和 Constant post-aggregator 两 种 类 型 后 聚合 器 。Field 
accessor 类 型 的 后 聚合 器 定义 引用 哪些 聚合 指标 。Constant 类 型 的 后 聚合 器 返回 一 个 常数 值 ， 常 用 于 辅助 其 他 后 聚合 器 进行 组 合 运算 。 
























































类 似 上 例 中 点 击 率 的 计算 过 程 ， 通 过 Field accessor 后 聚合 器 引用 曝光 量 和 点 击 量 两 个 聚合 指标 ， 除 运算 后 聚合 器 根据 点 击 量 和 曝光 量 的 比率 ， 由 于 点 击 率 需要 乘 以 100， 则 使 用 Constant 后 聚合 器 返回 
常数 100， 再 次 调用 乘 后 聚合 器 将 常数 100 与 第 一 次 后 聚合 器 返回 结果 相 乘 ， 最 终 返回 结果 集 。 

































































算数 运算 后 聚合 器 提供 基础 的 加 “+”、 减 “-”、 乘 ““” 、 除 从 和 “quotient” 商 算数 运算 。 使 用 除 人 ”运算 时 ， 如 果 除 数 为 0 则 直接 返回 结果 0。 








算数 运算 后 聚合 器 规则 定义 格式 如 下 : 





postAggregation : { 
"type" : "arithmetic", 
name" : <output name>, 
"fn" : <arithmetic function>, 


"fields": [<post aggregator>, <post aggregator>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...], 
"ordering" : <null (default), or "numericFirst"> 





















































与 常用 聚合 器 相同 ， 在 Druid 中 也 提供 了 JavaScript 后 聚合 器 用 于 自 定义 实现 定制 逻辑 的 后 聚合 器 ，JavaScript 后 聚合 器 性 能 相对 内 置 后 聚合 器 要 差 一 些 ， 如 果 内 置 后 聚合 器 能 够 满足 需求 ， 建 议 尽量 使 
内 置 后 聚合 器 。JavaScript 后 聚合 器 的 规则 定义 格式 如 下 : 


























postAggregation : { 


type": "javascript", 
"name": <output name>, 
"fieldNames" : 


[<aggregator name>, <aggregator name>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/0EBPS/Text/...], 
"function": <javascript function> 





5.2 ”查询 类 型 

















Druid 的 查询 采用 HTTP REST 方 式 ，Druid 中 Broker、Historical、Realtime 节 点 提供 了 REST 接 口 用 于 客户 端 访问 查询 信息 ， 只 需 将 查询 条 件 封装 成 JSON 格 式 ， 通 过 HTTP 方 式 将 JSON 查 询 条 件 发 送 到 
Broker 节 点 ， 查 询 成 功 会 返回 JSON 格 式 的 结果 数据 。 


5.2.1 ”时 间 序 列 查询 











timeseries 时 间 序 列 查 询 对 指定 时 间 段 按照 查询 规则 返回 聚合 后 的 结果 集 。 查 询 规则 中 可 以 设置 查询 粒度 ， 结 果 排 序 方式 (升序 /降序 ) 以 及 过 滤 条 件 ， 其 中 过 滤 条 件 可 以 使 用 嵌 套 过 滤 ， 并 且 支 持 后 聚 

















时 间 序 列 查 询 属 性 如 表 5-2 所 示 。 


表 5-2 ”时 间 序 列 查询 属性 说 明 


属 性 描 述 是 否 必须 
queryType 查询 类 型 ， 设 置 值 为 “timeseries” yes 
descending 结果 集 是 否 降序 排列 (默认 false 采用 升序 排列 ascending ) no 
intervals yes 
postAggreeations mg 


context 设置 上 下 文 查询 参数 no 














样 例 ， 统 计 2016 年 12 月 1 日 北京 地 区 的 曝光 量 、 点 击 量 。 

















SQL 语句 : 


select sum(Click_cnt) click, sum(Pv_cnt) pv 
from ad_event 
where dt='20161201' and city='beijing' 





将 SQL 语句 转换 成 时 间 序 列 查询 规则 : 





"queryType": "timeseries", 
"dataSource 
"granularity" 






"aggregations 
"type": "longSum", 
name": "click", 
"fieldName": "click cnt" 


bl 
"type": "longSum", 
"name": "pv", 
"fieldName": "pv_cnt™ 
} 


了 
"filter":{"type":"selector", "dimension":"city", "value":"beijing"}, 
"intervals": ["2016-12-01/2016-12-02"] 





通过 HTTP POST 执行 查询 操作 : 





curl -L -H'Content-Type: application/json' -XPOST \ 
--data-binary @quickstart/ timeseries query.json \ 
http://192.168.1.1:9095/druid/v2/?pretty 





返回 结果 集 
上 渤 
"timestamp" : "2016-12-01T00:00:00.0002" 
"result" : { 
voliok™ : 40r 
po ». S60 


5.2.2 ”TopN 查 询 























TopN 查 询 通 过 给 定 的 规则 和 显示 维度 返回 一 个 结果 集 。TopN 查 询 可 以 看 作 给 定 排序 规则 ， 返 回 单一 维度 的 group by 查询 。 但 是 TopN 查 询 比 GroupBy 查 询 速 度 更 快 ， 资 源 利用 率 更 高 。TopN 查 询 返 
回 的 是 近似 的 结果 集 ， 当 TopN 查 询 被 分 发 到 各 个 节点 执行 时 ， 每 个 节点 会 对 本 节点 前 K 个 结果 进行 排序 ， 并 将 排序 完 的 结果 集 返 回 给 Broker 代 理 节点 ， 可 以 通过 提高 立 值 来 增加 准确 性 。 











TopN 查 询 属性 如 表 5-3 所 示 。 


表 5-3 TopN 查 询 属性 说 明 


属 性 描 述 
queryType 查询 类 型 ， 设 置 值 为 “topN ” 
intervals 





eranularity 
filter 
aggregations 
postAearegations 


dimension 单一 维度 值 ，TopN 查询 根据 给 定 维 度 和 指标 进行 排序 
threshold 数值 N， 对 前 N 项 数据 进行 排序 
metric 指标 名 称 ， 最 终结 果 根 据 指标 值 排序 


context 设置 上 下 文 查询 参数 




















样 例 ， 统 计 2016 年 12 月 1 日 PC 端 曝光 量 和 点 击 量 ， 取 曝光 量 排名 前 三 的 城市 。 














SQL 语句 : 


是 否 必 须 
yes 
yes 
yes 
yes 
DO 
yes 


no 





select city,sum(pv_cnt) pv_cnt,sum(click cnt) click cnt 


from ad 


event 


where dt='20161201' and platform='pc' 
group by city 
order by pv_cnt desc 


limit 3 





将 SQL 语 句 转换 成 TopN 查 询 规则 : 





"queryType": "topN", 





"granularity": "day", 
"filter"; { 

"type": "selector", 
"dimension": "Platform"， 
"value": "pcn 


}, 


"aggregations": [ 
{ 


] 


"type": "longSum", 
"name": v_cnt", 
"fieldName": " pv_cnt" 





"type": "longSum", 
"name": "click cnt", 
"fieldName": " click cnt™ 


’ 
"intervale": [ "2016-12-01/2016-12-02" ] 





通过 HTTP POST 执行 查询 操作 : 





curl -L -H'Content-Type: application/json' -XPOST \ 
--data-binary @quickstart/topn query.json \ 
http://192.168.1.1:9095/druid/v2/?pretty 








返回 结果 : 
上 二 
"timestamp" : "2016-12-01T00:00:00.0002Z", 
Megomltt :s [| 
"py cnt™ : 450; 
"city" : "guangzhou", 
"olick ont” ; 25 


"pv_cnt" : 420, 
"city" : "chongqing", 
olick ent” ; 22 


"py cnt™ : 420, 
"city" : "shenzhen", 
volick ent™” : 38 





5.2.3 ”分 组 查询 

















在 实际 应 用 中 经 常 需要 进行 分 组 查询 ， 等 同 于 SQL 语句 中 的 GROUP BY 查询 。 如 果 对 单个 维度 和 指标 进行 分 组 聚合 计算 ,推荐 使 
度 、 多 指标 聚合 查询 。 








分 组 查询 属性 如 表 5-4 所 示 。 


表 5-4 分 组 查询 属性 说 明 








“topN” 查 询 ， 能 够 获得 更 高 效 的 查询 性 能 ,分 组 查询 更 适合 多 维 


属 性 描 
queryType 查询 类 型 ,设置 值 为 “groupBy” 
dataSouree 
dimensions 分 组 维度 列表 
limitSpec 对 结果 集 排序 、 限 制 返回 数据 条 数 ， 参 与 排序 的 列 既 可 以 是 维度 也 可 以 是 指标 
having 对 聚合 结果 、 维 度 进行 过 滤 


这 








intervals ISO-8601 格式 的 时 间 范 围 
granularity 查询 粒度 


filter 过 滤器 


neereeations 
postAggregations 


context 设置 上 下 文 查询 参数 


1.limitSpec 











limitSpec 规 则 定义 的 主要 作用 是 对 查询 结果 进行 排序 、 提 取 数 据 条 数 ， 类 似 于 SQL 语 句 中 ORDER BY 和 LIMIT 的 作用 。 

















规则 定义 格式 如 下 : 
{ 
"type" : "default", 
"limit": <integer value>, 
oolvumias" ‘<: [ 
{ 
"dimension" : "<Any dimension or metric name>", 
"direction" : <"ascending"|"descending"> 


} 








属性 说 明 如 表 5-5 所 示 。 


表 5-5 limitSpec 相 关 属 性 说 明 


属 性 
type 设置 值 为 “default” 


limit 提取 的 数据 条 数 

columns 排序 列表 ， 可 以 对 多 个 维度 或 指标 进行 排序 ， 指 标 和 维度 可 以 自由 组 合 
dimension 维度 或 指标 名 称 

direction 排序 方式 ， 可 选 值 "ascending" 升序 排列 ，"descending" 降序 排列 

















样 例 ， 统 计 2016 年 12 月 1 日 各 城市 PC 端 和 TV 端的 曝光 量 、 点 击 量 、 点 击 率 ， 取 曝光 量 排名 前 三 的 城市 数据 ， 曝 光量 相同 则 将 城市 名 称 按 升序 排列 。 





SQL 语句 : 








Select t. city,t.platform,t.click cnt,t.pv_cnt, (t.click/t.pv*100) click rate 
from( 
select city,platform, sum(click cnt) click cnt,sum(pv _ cnt) pv_cnt 
from ad event 
where dt="'20161201' and city='beijing' and (platform='pc' or platform="'tv') 
group by city,platform 
外 二 
order by t.pv_cnt desc,city asc limit 3 


将 SQL 语 句 转换 成 Druid 分 组 查询 规则 如 下 例 所 示 : 





"queryType": "groupBy", 

"dataSource": "ad event", 
"granularity": "day", 

"intervals": ["2016-12-01/2016-12-02"], 
"dimensions": ["city", "Platform"]， 
"aggregations": [ 


"type": "longSum", 
"name": "pv_cnt", 
"fieldName": "pv_cnt™ 


"type": "longSum", 
"name": "click cnt", 
"fieldName": "click cnt" 


"postAggregations": [ 
{ 


: "arithmetic", 
: "Click rate", 


DE 
’ 


"fields": [ 





"type": "arithmetic", 





marmt "div", 
My 
"fields": [ 
{ 
"type": "fieldAccess", 
"namen: "olick ent", 
"fieldName": "click cnt" 


"type": "fieldAccess", 
"name": "pv_cnt", 
"fieldName": "pv_cnt"™ 





"type": "constant", 
"name": "const", 
"value": 100 


} 
] 


1 
imitSpec":{ 





"type" : "default", 
Wimit" 3 
"columns" : [ 
{ 
"dimension" :; "pv_cnt", 
"direction" :; "descending" 
}, 
{ 
"dimension™ ; "city", 
"direction" :; "ascending" 





通过 HTTP POST 执行 查询 操作 : 





curl -L -H'Content-Type: application/json' -XPOST \ 
—-data-binary @quickstart/groupby limit query.json \ 
http://192.168.1.1:9095/druid/v2/?pretty 








返回 结果 : 
[4 
"version™ : "vl", 
"timestamp" : "2016-12-01T00:00:00.000z"， 
nevent" : { 
"latform, 3 “pe, 


"pv cnt" : 450, 
"click rate" : 5.555555555555555, 
oliok ent : a5 


"city" : "guangzhou" 
} 
iy 
"version™ : "vl", 
"timestamp" :; "2016-12-01T00:00:00.000z"， 
"event™" ; { 
"platform" : "pe", 


"pw cnt” : 420， 
"click rate" : 5.238095238095238, 
olick cnt ; 22, 


"city" : "chongqing" 
} 
}, 1 
"version™ : "v1", 
"timestamp" : "2016-12-01T00:00:00.0002Z", 
"event™" ; { 
"platfo: pe", 





pv Cnt™ < 1 
"click rate" : 9.047619047619047, 
"olicok ent” 38， 

"city" : "shenzhen™" 





2.having 














在 groupby 查 询 中 使 用 having 的 作用 是 对 分 组 聚合 之 后 的 结果 进行 过 滤 。 类 似 SQL 语 句 中 HAVING 的 语 ; 























1) 指标 值 比较 过 滤 ， 可 使 用 的 比较 过 滤 方 法 有 “equalTo” (等 于 ) 、“greaterThan” (大 于 ) 、“lessThan” (小 于 ) 三 种 类 型 。 











指标 值 比较 过 滤 规 则 格式 定义 如 下 : 





"type": "greaterThan|equalTo| lessThan", 
"aggregation": "<aggregate metric>", 
"value": <numeric value> 





2) 维度 选择 过 滤 ， 对 指定 的 维度 值 进行 过 滤 。 


维度 选择 过 滤 规 则 格式 定义 如 下 : 





"type": "dimSelector", 
"dimension": "<dimension>", 
"value": <dimension value> 








3) 逻辑 表达 式 过 滤 ， 提 供 逻 辑 上 的 “and” (与 ) 、“or” (或 ) 、“not” ( 非 ) 过 滤 ，havingSpecs 属 性 值 可 以 是 上 述 提供 的 任意 过 滤 方 式 的 组 合 。 





"type": "and|jorlnot", 
"havingSpecs": [<having clause>, <having clause>, http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/...] 





5.2.4 “元 数据 查询 


通过 元 数据 查询 能 够 更 加 全 面 地 了 解数 据 源 的 情况 。 





1. 查 询 数据 源 时 间 边 界 


提供 查询 指定 数据 源 的 最 大 、 最 小 时 间 戳 。 查 询 规则 如 下 : 





{ 


"queryType" : "timeBoundary", 
"dataSource": "sample datasource", 
"bound™" : < "maxTime" | "minTime" > 


} 








属性 说 明 如 表 5-6 所 示 。 


表 5-6 查询 数据 源 时 间 边 界 属性 说 明 
























































属 性 是 否 必 须 
queryType 查询 类 型 ， 设置 值 为 “timeBoundary” yes 
dataSource 数据 源 yes 
a 查询 的 时 间 惟 类 型 ， 最 大 时 间 蕉 设置 值 为 “maxTime”， 最 小 时 间 鹤 设 
oun Se eds re ds no 
置 值 为 “minTimne”， 如 果 不 设 置 则 默认 同时 返回 最 大 、 最 小 时 间 戳 
样 例 ， 查 询 数据 源 “ad_event” 的 最 大 、 最 小 时 间 戳 ， 查 询 规则 如 下 : 
{ 
"queryType" : "timeBoundary", 
"dataSource": "ad event" 
} 
返回 结果 
i "timestamp" : "2016-12-01T01:00:00.0002", 
eS : "2016-12-01T01:00:00.0002", 
"maxTime" : "2016-12-02T02:00:00.0002" 
jl 
2.Segment 元 数据 查询 
按照 元 数据 查询 规则 查询 指定 数据 源 的 segment 元 数据 信息 ， 此 查询 的 作用 是 让 使 用 者 更 加 了 解 Segment。 
规则 定义 格式 如 下 : 
"queryType":"segmentMetadata", 
"dataSource":"sample datasource", 
"intervals": ["2013-01-01/2014-01-01"] 
} 
属性 说 明 如 表 5-7 所 示 。 
表 5-7 ” Segment 元 数据 查询 属性 说 明 
queryType 查询 类 型 ， 设 置 值 为 “segmentMetadata” yes 
dataSource 数据 源 yes 
intervals ISO-8601 格式 的 时 间 范 围 Do 
设置 返回 结果 包含 哪些 列 信息 ， 默 认 包 含 所 有 列 ， 值 类 型 为 JSON 
toInclude no 
对 象 
merge 是 否 将 返回 结果 合并 返回 ， 值 类 型 为 布尔 类 型 ， 默认 值 false no 
context 查询 上 下 文 参数 设置 Do 
. 列 分 析 属 性 ， 值 类 型 为 数组 ， 默 认 值 ["cardinality", "size", "interval", 
analyslsTypes no 
"aggregators"]| 
lenientAggregatorMerge 是 否 使 用 宽松 的 聚合 器 合并 方式 ， 值 类 型 为 布尔 类 型 ， 默 认 值 true no 





样 例 ， 数 据 源 ad_eve 





nt 按 小 时 粒度 聚合 ， 查 询 数 据 源 ad_event 在 "2016-12-01T01:00:00Z/2016-12-01T02:00:00Z" 时 间 段 的 Segment 元 数据 信息 。 











"queryType":"segmentMetadata", 
"dataSourc "ad event", 
"intervals":["2016-12-01T01:00:002/2016-12-01T02:00:002"] 









查询 结果 如 下 : 





"id" : "ad event 2016-12-01T01:00:00.0002z 2016-12-01T02:00:00.0002z 


2016-12-01T02:01:44.5142" 














"intervals" : [ "2016-12-01T01:00:00.0002/2016-12-01T02:00:00.0002" ]， 
"columns" : { 
"_ time" : {"type" : "LONG", "hasMultipleValues" : false,"size" : 50, 
"cardinality" : null,"errorMessage™" : null}, 
"city"” :; {"type" "STRING", "hasMultipleValues" : false,"size" :; 41， 
"cardinality" : 5,"errorMessage" : null}, 
"click cnt" : {"type" : "LONG","hasMultipleValues" : false,"size" : 40, 
"cardinality" : null,"errorMessage" : null}, 
"count™ : {"type" : "LONG","hasMultipleValues" : false, "size" :; 40, 
"cardinality, null, "errorMessage" : null}, 
"orderitem id" : {"type" : "STRING","hasMultipleValues" : false, "size" : 10, 
?"cardinality" : 1, "errorMessage" : null}, 
"platform" : {"type" : "STRING","hasMultipleValues" : false,"size" : 10, 
"cardinality" : 1,"errorMessage" : null}, 
"pv_cnt" : {"type" : "LONG","hasMultipleValues" : false, "size™" : 40, 
ee "cardinality" : null, "errorMessage" : null} 
] 
"size" : 266, 
"numRows" : 5, 
"aggregators"” : null 
| 
返回 结果 说 明 : 


-id: Segment 唯 一 ID。 


'intervals: 创建 Segment 时 间 粒 度 跨度 ， 如 果 查 询 规 则 中 设置 的 查询 时 间 范 围 大 于 Segment 生 成 的 时 间 粒 度 ， 则 在 返 


-columns: 数据 源 包含 的 时 间 蕉 、 维 度 、 指 标 列 信息 ， 只 有 维度 列 会 有 cardinality 属 性 值 。 
size: Segment 大 小 。 

-numRows: Segment 包 含 的 数据 条 数 。 

-aggregators: 数据 源 摄 入 数据 使 用 的 聚合 器 。 


查询 规则 属性 解释 如 下 : 





1) tolnclude: 设置 返回 结果 包含 哪些 列 信息 ， 可 选 值 为 “all”、“none”、 "list” 。 





2) all: 返回 所 有 列 信息 ， 默 认 值 。 














使 用 方法 : "tolnclude":{"type":"all"} 





3) none: 不 返回 任何 列 信息 ， 返 回 结果 中 “columns” 值 为 空 。 











使 用 方法 : "tolnclude":{"type":"none"} 





样 例 结果 如 下 : 








可 








的 结果 集中 会 包含 多 条 数据 ， 


每 条 数据 代表 一 个 时 间 粒 度 跨度 内 的 Segment 信 息 。 





[ 
"id" : "ad event 2016-12-01T01:00:00.0002_2016-12-01T02:00:00.0002 


2016-12-01T02:01:44.5142" 


"intervals" : [ "2016-12-01T01:00:00.0002/2016-12-01T02:00:00.0002" ]， 
"columns" : {}, 

"size" : 266, 

"numRows™" : 5, 

"aggregators" : null 


| 





4) list: 返回 指定 的 列 信息 。 














使 用 方法 : "tolnclude":{"type":"list","columns":["col1","col2"...]} 





只 查询 维度 列 “city” 和 指标 列 “pv_cnt” 元 数据 信息 。 





"queryType":"segmentMetadata", 

ad event", 

ye nlistn, aolunmme: lety" tr Ont |] 
"intervals": ["2016-12-01T01:00:002/2016-12-01T02:00:002"] 











返回 结果 
[区 
"id" : "ad event 2016-12-01T01:00:00.000z 2016-12-01T02:00:00.000Zz 
_2016-12-01T02:01:44.5142"， 加 
"intervals" : [ "2016-12-01T01:00:00.0002/2016-12-01T02:00:00.0002" ]， 
"columns" : { 
"city" : {"type" : "STRING","hasMultipleValues" : false, "size" : 41, 
"cardinality" : 5, "errorMessage" : null}, 
"pv_cnt" : {"type" : "LONG","hasMultipleValues" : false, "size" : 40, 
"cardinality" : null, "errorMessage" : null} 
}, 
"size" : 266, 
"numRows" : 5, 
"aggregators"” : null 





5) merge: 是 否 将 返回 结果 合并 返回 ， 值 类 型 为 布尔 类 型 ， 默 认 值 false。 








样 例 : 合并 返回 数据 源 ad_event 在 2016 年 12 月 1 日 的 Segment 元 数据 信息 。 








"queryType":"segmentMetadata", 
"dataSourc: "ad_event", 
"toInclude": {"type":"list", “colums":["city", "pv_cnt"]}, 






"intervals": ["2016-12-01/2016-12-02"]， 


"merge" :true 








"id" : "merged",# 注 意 采 用 合并 的 方式 返回 结果 id 的 值 为 mnerged 


"intervals" : [ "2016-12-01T01:00:00.0002/2016-12-01T03:00:00.0002z" ]， 
"columns" : { 
ncity" : { "type" : "STRING", "hasMultipleValues" : false, "size" : 82, 
"cardinality" : 5, "errorMessage" : null}, 
"pv_cnt" : {"type" : "LONG", "hasMultipleValues" : false, "size" : 80, 
"cardinality" : null, "errorMessage" : null} 
Ey 
"size" 532, 
"numRows" : 10, 
"aggregators" : null 








6) analysisTypes: 列 分 析 属 性 ， 可 选 值 为 “cardinality”、 “size”、 “interval”、“aggregators”， 上 默认 值 ["cardinality","size","interval","aggregators"]。 如 果 某 个 属性 不 需要 ， 则 从 该 列表 中 





移 除 出 去 ， 这 样 能 够 提高 查询 性 能 。 























7) lenientAggregatorMerge: 是 否 使 


3 数据 源 最 近 一 次 摄 入 数据 时 间 戳 

















宽松 的 聚合 器 合并 方式 ， 默 认 值 true。 如 果 Segment 同 一 个 指标 列 使 








了 不 同 的 聚合 器 或 者 使 





了 未 知 的 自 定义 聚合 器 ， 通 过 严格 合并 方式 将 会 返回 null。 





规则 格式 定义 如 下 : 
"queryType" : "dataSourceMetadata", 
"dataSource": "sample datasource"™" 








属性 说 明 如 表 5-8 所 示 。 


属 性 
queryTIype 
dataSource 


context 





表 5-8 ”数据 源 最 近 一 次 摄 入 数据 时 间 戳 相 


关 属 性 说 明 


是 否 必须 
查询 类 型 ， 设 置 值 为 “dataSourceMetadata ” yes 
数据 源 yes 





查询 上 下 文 参数 设置 no 


样 例 : 查询 数据 源 ad_event 最 近 一 次 摄 入 数据 的 时 间 戳 。 











"queryType" : "dataSourceMetadata", 
"dataSource": "ad event" 
} 
返回 结果 : 
人 这 
"timestamp" : "2016-12-02T02:00:00.000z"， 
"result" : { 
"maxIngestedEeventTime" : "2016-12-02T02:00:00.0002" 


} 
Ea 





5.2.5 ”搜索 查询 








搜索 查询 是 对 维度 值 过 滤 查 询 ， 类 似 于 SQL 语句 中 的 LIKE 语 法 。 其 属性 说 明 如 表 5-9 所 示 。 


表 5-9 搜索 查询 相关 属性 说 明 


搜索 规则 用 于 搜索 维度 值 范围 内 与 搜索 值 是 否 相 匹配 ， 类 似 于 SQL 语句 where 限 制 条 件 中 的 like 语 法 。 使 用 搜索 过 滤器 需要 设置 三 个 配置 项 : type 过 滤器 类 型 值 为 “search”，dimension 值 为 维 


queryType 查询 类 型 ,设置 值 为 “search” 
filter 过 滤 硕 
limit 每 个 历史 节点 返回 结果 的 最 大 条 数 ， 默 认 1000 
searchDimensions 询 的 维度 名 称 列表 ， 如 果 不 设置 默认 对 所 有 维度 进行 匹配 
query 维度 值 匹配 规则 ， 详 见 下 面 关于 搜索 规则 的 说 明 
返回 结果 排序 方式 ， 目 前 提供 两 种 排序 方式 : 字典 顺序 (“lexicographic”) 





sort 


和 返回 结果 集 值 的 长 度 (“strlen”) 
context 查询 上 下 文 参数 设置 









































称 ，query 值 为 JJON 对 象 ， 定 义 搜索 过 滤 规 则 。 目 前 Druid 提 供 的 搜索 规则 类 型 有 lnsensitive Contains、Fragment、Contains、Regex。 














(1) Insensitive Contains 





























DO 


DO 





维度 值 的 任何 部 分 包含 指定 的 搜索 值 都 会 匹配 成 功 ， 并 且 不 区 分 大 小 写 。 使 用 Insensitive Contain 搜 索 过 滤器 需要 配置 两 个 配置 项 : type 过 滤 类 型 值 为 “insensitive_contains”，value 值 为 搜索 值 ， 
只 能 配置 单个 值 。 


规则 定义 格式 如 下 : 





{ 


i 


"type": "insensitive contains", 
"value" : "some value" 


样 例 : SQL 语句 中 where city like” %jing%” 转化 为 等 价 的 查询 规则 定义 如 下 : 





"queryType": "search", 
"dataSource": "ad event", 
"searchDimensions™: ["city"], 
"granularity": "day", 
"query": { 
"type" : "insensitive contains", 
"value” ; "jing" 
"oort™ x { 
"type": "lexicographic" 


nfntervals": k 
"D016-12-01 /2016-12-02" 
] 








返回 结果 : 
[和 
"timestamp" : "2016-12-01T00:00:00.0002" 
"result" : [{ 
"dimension™ : "city", 
"value" ; "beijing" 


} 


让 本 
] 





(2) Fragment 








Fragment 将 提供 一 组 搜索 值 ， 维 度 值 的 任何 部 分 包含 全 部 搜索 值 则 匹配 成 功 ， 匹 配 过 程 可 以 选择 是 否 忽略 大 小 写 。 使 用 Fragment 搜 索 过 滤 需要 配置 三 个 配置 项 : type 搜 索 过 滤 类 型 值 
为 “fragment”。values 设 置 一 组 搜索 值 ， 使 用 JSON 数 组 表示 。case_sensitive 表 示 是 否 忽略 大 小 写 ， 布 尔 类 型 值 ， 默 认 值 为 false， 不 忽略 大 小 写 ， 该 配置 项 为 可 选 配置 项 。 



































规则 定义 格式 如 下 : 





{ 


"type" : "fragment", 
"case_sensitive" : false, 
"values" : ["fragmentl", "fragment2"] 





样 例 : SQL 语句 中 where city like”%bei%' and city like”%jing%”′ 转化 为 等 价 的 查询 规则 定义 如 下 : 





"queryType": "search", 


"dataSource": "ad event", 
"searchDimensions™: [meitye]7 
"granularity": "day", 
"query": { 


"type" : "fragment", 


"case sensitive" : 


}, 


"values" : ["bei", "jing"], 


true 


gt 和 和 


"type": "lexicographic"™" 


’ 
"intervals": [ 


] 


"2016-12-01/2016~12-02" 











返回 结果 : 
EE 
"timestamp" :; "2016-12-01T00:00:00.0002Z", 
"result" : [ { 
"dimension™ : "city", 
"value" ; "beijing" 
| 
}1] 
(3) Contains 


维度 值 的 任何 部 分 包含 指定 的 搜索 值 都 会 
配置 项 : type 搜 索 类 型 为 contains，value 值 为 搜索 值 ， 只 能 配置 和 





规则 定义 格式 如 下 : 








匹配 成 功 ， 与 “Insensitive Contains” 实 现 的 功能 类 似 ， 唯 一 不 同 是 “Contains” 过 滤 类 型 可 以 配置 是 否 区 分 大 小 写 。 使 
个 值 。 case_sensitive 表 示 是 否 忽 略 大 小 写 ， 布 尔 类 型 值 ， 默 认 值 为 false， 不 忽略 大 小 写 ， 该 配置 项 为 可 选 配置 项 。 





Contains 搜 索 过 滤 需 要 配置 三 个 














{ 
"type": 


"case sensitive" : 
"value" : 


"contains", 
true, 
"some value" 





样 例 : SQL 语句 中 where city like”%bei%， 转 化 为 等 价 的 查询 规则 定义 如 下 : 





"queryType": "search", 


"dataSource": 
"searchDimensions": 


"ad event", 
["city"]， 


"granularity": "day", 


nquery": { 


type" : "contains", 
"value" : "bei"™, 
"case_sensitive":true 
Fa 
SC % 


"type": "lexicographic™" 


’ 
"intervals": [ 


(4) Regex 


维度 值 的 任何 部 分 能 够 与 正则 表达 式 


"2016-12-01/2016-12-02" 


"2016-12-01T00:00:00.0002" 


1 


edity 
" ; "beijing" 





匹配 则 








定义 规则 如 下 : 











匹配 成 功 ， 对 于 复杂 的 过 滤 查 询 非常 重 








， 可 在 不 修改 任何 源 代 码 的 基础 上 实现 自 定义 搜索 过 滤 。 





{ 
"type": 


} 


"pattern™" : 


"regex", 
"some Pattern" 





5.3 ”查询 API 


5.3.1 REST 们 | 




















条 着 互联 网 技术 的 不 断 发 
(Representational State Transfer，REST) 是 Roy Thomas Fielding 博 士 于 2000 稀 
种 万 维 网 软件 架构 风格 。REST 流 行 应 用 于 Web 应 F 


| 介绍 





展 ， 客 户 端 与 服务 器 的 交互 技术 也 在 不 断 变化 ，REST 的 设计 与 实现 方式 越 来 越 流行 ， 


并 且 已 经 应 用 到 很 多 大 型 系统 上 。 维 基 百 科 给 出 的 定义 是 : 























象 状态 传输 











在 他 的 博士 论文 《Architectural Styles and the Design of Network-based Software Architectures》 中 提出 来 的 一 























程序 ，REST 提 供 了 Web 应 





























程序 中 客户 端 与 服务 器 端 交 互 传输 的 一 种 约束 标准 ， 这 种 约束 标准 简单 高 效 ， 只 


按照 REST 的 标准 设计 开发 服务 器 端 和 客户 


端 应 用 ， 就 能 够 快速 的 构建 一 套 完整 的 交互 传输 系统 。 

REST 有 几 个 特点 : 实现 语言 丰富 ， 不 仅 限于 一 种 语言 ， 可 以 使 用 Java、Python、PHP 等 多 种 语言 实现 ， 大 大 提高 了 REST 设 计 开发 的 灵活 度 ， 便 于 掌握 不 同 开发 语言 的 开发 人 员 设 计 开发 ; 统一 的 接 
口 ， 这 便于 组 件 之 间 的 通信 交互 ， 将 不 同 的 资源 整合 到 一 起 管理 ; 标准 的 数据 格式 ， 标 准 的 数据 格式 能 够 提高 处 理 请 求 的 效率 ， 降 低 数 据 处 理 复杂 度 ; 唯一 的 URI， 每 个 请 求 资源 都 有 一 个 唯一 的 URI， 资 源 
划分 清晰 。 会 话 状态 由 客户 端 维护 ，HTTP 的 请 求 是 没有 状态 的 ， 常 用 的 HTTP 请 求 方法 有 GET、PUT、POST、DELETE 等 。 








5.3.2 Jersey 客户 端 


Jersey 是 基于 

















FF Java 语言 开源 的 轻 量 级 REST 框 架 ， 提 供 了 





GET、POST 等 请 求 ， 也 可 以 通过 流行 的 REST 框 架 自 定义 REST 客 户 端 ， 实 现 与 Druid 的 请 求 交互 ， 比 如 发 送 索 引 请 求 、 查 询 请 求 等 。 下 





F 富 的 开发 接 [ 








， 基 于 Jersey 可 以 快速 完成 RESTful 服 务 端 、 客 户 端 的 接 | 

















开发 。Druid 提 供 了 9 











面 通过 使 














F 富 的 REST 服 务 请 求 接口 ， 可 以 通过 cur| 方 式 发 送 





Jersey 框 架 实现 的 RESTful 客 户 端 来 具体 说 明 。 





在 项 目 中 需要 引入 Jersey 的 jar 包 ， 如 图 5-1 所 示 。 











E 


sey-Core-1.1y.1.jar 


sul 


laf 





图 5-1 在 项 目 中 需要 引入 Jersey 的 jar 包 


一 个 完整 的 GroupBy 查 询 示例 如 下 : 


public class QueryDataPlatform { 
public static void main(String[] args) { 








String starttime = "2016-09-27"; // 开始 日 期 

String endtime = "2016-09-28"; // 结束 日 期 

String dimensions = "city,platform"; // 显示 维度 ， 多 个 维度 之 间 用 逗号 隔 开 
String metrics = "pv cnt"; // 统计 项 ， 多 个 统计 项 之 间 用 逗号 隔 开 


// 创建 json 对 象 ， 用 于 存放 过 渡 条 件 ， 相 当 于 sql 语 句 中 的 where 条 件 
JSONObject whereParam = new JSONObJject (); 
try { 

whereParam.put ("city", "beiing"); 

whereParam.put ("platform", "pc"); 

Wf 发 闫 groutoy 坦 请 请 求 

queryGroupBy (starttime, endtime, dimensions,metrics,whereParam); 
} catch (JSONException e) { 

e.printSstackTrace (); 


~ 一 


六 


GroupBy 查 询 

@param starttime 

@param endtime 

@param dimensions: 查询 维度 ， 多 个 值 用 逗号 隔 开 
Q@param metrics: 统计 指标 ， 多 个 值 用 逗号 隔 开 
@param whereParam: 过 滤 条 件 

@return JSONObject 

@throws JSONException 











六 
这 
public static void queryGroupBy (String starttime,String endtime,String dimensions, 
String metrics,JSONObject whereParam) throws JSONException{ 

String queryType = "groupBy";// 查询 类 型 

// 数据 源 

String dataSource = "ad event"; 

String intervals = starttime + "/" + endtime; 

// 构建 JSON 类 型 的 查询 规则 

JSONObject jsonParam = buildJson 


(queryType dataSource, intervals, dimensions,metrics, whereParam); 
// broker 请 求 地 址 
String url = "http://192.168.1.1:9095/druid/v2/?pretty"; 
// 创建 客户 端 配置 项 
ClientConfig cc = new DefaultClientConfig(); 
// 创建 Client 
Client client = Client.create (cc); 
// 发 送 远程 POST 请 求 
JSONArray result = postRemoute (client,url,jsonParam); 
System.out ,print1n ("~--=---=-==- 返回 结果 展示 --------------- 于 
if(result != null && result.length() > 0){ 
for (int i=0;i<result.length();i++){ 
JSONObject job = result.getJSONObject (i); 
System.out .println (job.toString()); 


}else{ 
System.out .println("-— 





无 返回 结果 





~— 


站 和 外 外 外 外 外 站 


将 查询 参数 组 装 成 JSON 查 询 规则 
@param queryType: 查询 类 型 
Q@param datasource: 数据 源 
@param intervals: 查询 时 间 范 围 
Q@param dimensions: 查询 维度 ， 多 个 值 用 逗号 隔 开 
Q@param metrics: 统计 指标 ， 多 个 值 用 逗号 隔 开 
Q@param whereParam: where 过 滤 条 件 
* @return JSONObject 
这 
private static JSONObJject buildJson (String queryType, String datasource 
7String intervals, String dimensions 
:String metrics, JSONObject whereParam) 
throws JSONException{ 
JSONObject jsonobject = new JSONObject (); 
jsonobject .put ("queryType", queryType); 
jsonobject .put ("dataSource", datasource); 
JSONObject granularityObj = new JSONObject (); 
granularityObj .put ("type", "period"); 
granularityObj .put ("period", "“P1D"); // 时 间 段 为 1 天 
granularityobj .put ("timeZone", "Asia/Shanghai"); // 设置 时 区 
jsonobject.put ("granularity", granularityObj); 
JSONArray itl = new JSONArray(); 
itl.put (intervals); 
jsonobject .Put ("intervals", itl); 
JSONArray dimensionArray = new JSONArray(); 
// 解析 维度 参数 
if (dimensions.contains(",")){ 
String[] dsarray = dimensions.split(","); 
if(dsarray.length > 0){ 
for (int i=0;i<dsarray.length;i++) { 
dimensionArray.put (dsarray[i]); 

















} 


}else{ 
dimensionArray.put (dimensions); 
} 
jsonobject .put ("dimensions", dimensionArray); 
JSONArray aggregationArray = new JSONArray () 7 
// 解析 统计 项 指标 
if (metrics.contains(",")){ 
String[] agarray = metrics.split(" 
if (agarray.length > 0){ 
for (int i=0;i<agarray.length;i++){ 
JSONObject ob = new JSONObject (); 
ob.put ("type", "longSum"); 
ob.put ("name", agarray[i]); 
ob.put ("fieldName", agarray[i]); 
aggregationArray.put (ob); 





) 7 





} 
}elsef{ 
JSONObject ob = new JSONObject (); 
ob.put ("type", "longSum"); 
ob.put ("name", metrics); 
ob.put ("fieldName", metrics); 
aggregationArray .put (ob); 
3 
jsonobject .put ("aggregations", aggregationArray); 
// 拼装 过 滤 条 件 
int whereLen = whereParam.length () 7 
if (whereLen > 0){ 
Iterator it = whereParam.keys(); 
if (whereLen >1){ 
// 查询 条 件 两 个 以 上 使 用 vand” 过 滤 
JSONObject filterObj = new JSONObject (); 
JSONArray filters = new JSONArray () 7 
while(it.hasNext ()){ 
JSONObject filter = new JSONObject (); 
String key = (String) it.next(); 
String value = whereParam.getString (key); 
filter.put ("type", "selector") 
filter.put ("dimension", key); 
filter.put ("value", value); 
filters.put (filter); 
} 
filterObj .put ("type", "and"); 
filterObj .put ("fields", filters); 
jsonobject.put ("filter", filterObj); 
}elsef{ 
while(it.hasNext ()){ 
JSONObject filter = new JSONObject (); 
String key = (String) it.next (); 
String value = whereParam.getString (key); 
filter.put ("type", "selector"); 
filter.put ("dimension", key); 
filter.put ("value", value); 
jsonobject.put ("filter", filter); 


} 
} 


return jsonobject; 


~ 


Post 远 程 请 求 
Q@param client: Restful Client 实 例 
Q@param url: 请 求 地 址 
Q@param jsonParam: JSONObject 类 型 查询 参数 
@return 
* Qthrows JSONException 
六 
private static JSONArray PostRemoute (Client client,String url,JSONObject jsonParam) 
throws JSONException{ 
WebResource resource = client.resource (url); 
ClientResponse response = resource 
.accept (MediaType .APPLICATION JSON) 
.type (MediaType.APPLICATION JSON) 
.Post (ClientResponse.class, jsonParam.toString()); 
JSONArray resp = response.getEntity (JSONArray.class); 
// 对 返回 结果 进行 规范 化 处 理 
JSONArray result = execJsonArrayResult (resp); 
return result; 











这 段 查询 示例 代码 ， 首 先 初始 化 Jersey 配 置信 息 ， 然 后 将 查询 参数 、 过 滤 条 件 等 信息 组 装 成 一 个 JSJON 对 象 ， 通 过 HTTP POST 的 方式 将 JSON 对 象 参数 发 送 给 Druid 服 务 端 ， 最 后 接收 到 返 
需要 的 JSJONArray 结 果 集 。 





回 








结果 解析 成 


5 洲 结 























本 章 通过 实例 讲解 了 关于 Druid 的 各 种 查询 类 型 和 查询 依赖 组 件 ， 通 过 实例 开发 介绍 如 何 使 用 Druid 提 供 的 RESTful 接 口 实 现 客 户 端 开发 。 本 章 几乎 覆盖 了 所 有 Druid 查 询 相 关 的 原理 介绍 和 使 用 方法 。 希 
望 读者 能 够 通过 本 章 的 学 习 熟 练 掌握 Druid 的 各 种 查询 使 用 。 























第 6 章 “日志 收集 

















随 着 视频 、 电 商 、 社 交 、 智 能 手机 、 智 能 交通 等 广泛 流行 和 飞速 发 展 ， 以 及 服务 器 、 应 用 的 数量 不 断 增多 ， 每 天 都 会 产生 数 以 亿 计 的 日 志 数据 ， 需 要 通过 日 志 数据 剖析 出 用 户 的 行为 、 应 用 的 运行 状 
态 、 各 种 流量 分 析 等 。 随 着 Storm、Spark 等 实时 计算 框架 的 不 断 优 化 并 逐步 趋 于 成 熟 ， 并 且 应 用 到 各 行 各 业 的 生产 环境 中 ， 对 实时 数据 的 需求 也 越 来 越 迫 切 ， 所 以 需要 一 套 高 容错 、 高 可 用 、 可 恢复 的 高 性 
能 日 志 收 集 系 统 来 保证 实时 日 志 数 据 的 收集 。 目 前 比较 有 代表 性 的 日 志 收 集 项 目 有 FaceBook 开 源 的 Scribe 和 cloudera 开 源 的 Flume，Scribe 是 基于 thrift 的 日 志 收 集 框架 ， 具 有 可 容错 、 可 扩展 的 特性 ， 整 
体 架 构 设计 简单 。Flume 通 过 不 断 的 改造 已 经 从 老 版 本 的 Flume-OG 升 级 到 了 Flume-NG， 架 构 更 加 简单 ， 具 有 高 可 用 、 高 容错 、 可 扩展 的 特性 ， 提 供 了 丰富 的 Source 和 Sink 类 型 ， 并 且 支 持 自 定义 


Source、 Sink。 






































































































































6.1 Flume 介绍 











Flume 是 cloudera 公 司 开 发 的 分 布 式 、 高 可 用 的 日 志 收 集 系统 ， 是 Hadoop 生 态 圈 内 的 关键 组 件 之 一 ， 目 前 已 开源 给 apache。Flume 原 始 版 本 为 Flume-OG， 经 过 对 整体 架构 的 重新 设计 ， 已 改名 为 
Flume-NG。Flume 发 展 到 现在 已 经 不 仅 限于 日 志 收集 ， 还 可 以 通过 简单 的 配置 收集 不 同 数据 源 的 海量 数据 并 将 数据 准确 高 效 地 传输 到 不 同 的 中 心 存储 。 目 前 Flume 可 对 接 的 主流 大 数据 框架 有 Hadoop、 
Kafka、ElasticSsearch、Hive、HBase 等 。 在 使 用 Flume 的 过 程 中 ， 通 过 配置 文件 可 以 实现 整个 数据 收集 过 程 的 负载 均衡 和 故障 转移 ， 整 个 流程 不 需要 修改 Flume 的 任何 代码 。Flume 具 有 上 述 的 诸多 特性 得 
益 于 优秀 的 框架 设计 ，Flume 通 过 可 扩展 、 插 件 化 、 组 合式 、 高 可 用 、 高 容错 的 设计 模式 ， 为 用 户 提供 了 简单 、 高 效 、 准 确 的 轻 量化 大 数据 采集 工具 。 









































































































































Flume-NG 采 用 三 层 架 构 设 计 : 收集 (Source) 、 暂 存 (Channel) 、 处 理 (Sink) ， 如 图 6-1 所 示 。 




















一 个 event 在 一 个 agent 中 的 传输 流程 如 图 6-1 所 示 ， 传 输 顺序 为 : 














Source 一 Interceptor 一 Selector 一 Channel 一 Sink Processor 一 Sink 一 中 心 存储 /下 一 级 agent 


Interceptor Sink Processor 






中 心 存储 









Source (@j gtzlalals 


图 6-1 event 在 agent 中 的 传输 流程 


核心 概念 : 

-Event: 一 条 消息 或 者 说 是 一 条 数据 ， 具 有 可 选 头 信息 ， 在 头 信息 中 可 以 设置 时 间 鹤 、 主 机 名 称 等 信息 。 

“Source: 数据 源 ， 接 收 或 者 收集 不 同形 式 的 数据 源 。 

“Channel: event 的 临时 缓冲 区 ，source 先 将 event 发 送 到 chane1 缓 存 等 待 sink 消 费 。 

“Sink: 从 channe1 获 取 event 并 发 送 到 中 心 存储 或 者 下 一 级 agent。 

:agent: 包含 source、channe1、sink 等 组 件 的 flume 进 程 。 

“Interceptor: event 拦 截 器 ， 根 据 配 置 文 件 在 event 的 header 中 添加 时 间 惟 、 主 机 名 称 等 信息 。 

“Selector: event 选 择 器 ，event 选 择 流入 channel1 的 方式 ，flume 提 供 了 复制 (replicating) 和 复 用 (multiplexing) 选择 器 。 
“Sink Processor: event sink 处 理 器 ，flume 提 供 了 故障 转移 处 理 器 和 负载 均衡 处 理 器 。 


各 组 件 详细 介绍 : 











Flume 中 三 大 组 件 设计 的 类 型 比较 多 ， 下 面 只 介绍 常用 的 重要 组 件 类 型 ,没有 介绍 到 的 组 件 类 型 请 查阅 官方 文档 了 解 详细 信息 : http://flume.apache.org/。 











1.Source 











Source 用 于 对 接 各 种 数据 源 ， 将 收集 到 的 事件 发 送 到 临时 存储 Channel 中 。 


























常用 的 Source 类 型 有 : Avro Source、Exec Source、Kafka Source、Taildir Source、Spooling Directory Source 等 ， 其 他 类 型 source 请 查阅 Flume-NG 官 方 介绍 。 


(1) Avro Source 


























支持 Avro 协议 ， 接 收 RPC 事 件 请 求 。Avro Source 通 过 监听 Avro 端口 接收 外 部 Avro 客户 端 流 事件 (event) ， 在 Flume 的 多 层 架构 中 经 常 被 使 用 接收 上 游 Sink 发 送 的 event。 














关键 参数 说 明 : 


“type: 类 型 名 称 avro。 

bind: 绑 定 的 IP。 

-port: 监听 的 端口 。 

'threads: 〔 重 要 ) 接收 请 求 的 线程 数 ， 当 需要 接收 多 个 avro 客 户 端的 数据 流 时 要 设置 合适 的 线程 数 ， 否 则 会 造成 avro 客 户 端 数据 流 积压 。 


"channels: Source 对 接 的 Channe1 名 称 。 


定义 规则 : 





al.sources = rl 

al.channels = cl 

al.sinks = kl 
al.sources.rl1.type = avro 
al.sources.rl.bind = 127.0.0.1 
al.sources.rl.port = 9876 
al.sources.rl1.threads= 3 
al.sources.rl.channels = cl 
al.sjnks,kl,type = file roll 
al.sinks.kl.channel = cl 
al.sinks.kl1.sink.directory = /usr/local/fiume/output 





说 明 : Agent 和 名称 为 a1，Source 和 名称 为 r1，Sink 名 称 为 kL1，channel 名 称 为 c1，avro 启 动 接收 客户 端 数 据 流 的 最 大 线程 数 为 3，r1 对 接 的 channe| 为 c1，k1 类 型 为 file_roll (输出 到 可 滚动 的 文件 


中 ) ，k1 对 接 的 channel 为 c1，k1 文 件 输出 路 径 为 /usr/local/flume/output。 


(2) Kafka Source 











对 接 分 布 式 消息 队列 kafka， 作 为 kafka 的 消费 者 持续 从 kafka 中 拉 取 数据 ， 如 果 多 个 kafka source 同 时 消费 kafka 中 同一 个 主题 (topic) ， 则 kafka source 的 kafka.consumer.group.id 应 该 设置 成 相 











同 的 组 id， 多 个 kafka source 之 间 不 会 消费 重复 的 数据 ， 每 一 个 source 都 会 拉 取 topic 下 的 不 同 数据 。 


关键 参数 说 明 : 


“type: 类 型 设置 为 kafksouce 的 类 路 径 ， 即 org.apache.flume.source.kafka.KafkaSource。 
"channels: Source 对 接 的 Channe1 名 称 。 
:kafka.bootstrap.servers: Kafka broker 列 表 ， 格 式 为 ip1:Port1，ip2:port2.…， 建 议 配 置 多 个 值 提高 容错 能 力 ， 多 个 值 之 间 用 逗号 隔 开 。 





"kafka.topics: 消费 的 topic 名 称 。 
-kafka.topics.regex: 通过 正则 表达 式 匹 配 一 组 topic， 设 置 此 选项 会 覆盖 kafka.topics 选 项 的 设置 。 





"kafka.consumer.group.id: kafka source 所 属 组 id， 默 认 值 Elume。 
-batchSize: 批量 写 入 channe1 的 最 大 消息 数 ， 默 认 值 1000。 
batchDurationMillis: 等 待 批量 写 入 channe1 的 最 长 时 间 ， 这 个 参数 和 batchSize 两 个 参数 只 要 有 一 个 满足 都 会 触发 批量 写 入 channel 操 作 ， 默 认 值 1000( 单 位， 毫秒 〉。 


定义 规则 : 





al.sources = rl 

al.channels = cl 

al.sinks = kl 

al.sources.rl.type = org.apache.fiume.source.kafka.KafkaSource 
al.sources.rl.channels = cl al.sources.rl.batchSize = 5000 
al.sources.rl.batchDurationMillis = 2000 

al.sources.r] .kafka.bootstrap.servers = 192.168.1.1:9092,192.168.1.2:9092 
al.sources.rl.kafka.topics = topictest1 

al.sources.r] .kafka.consumer.group.id = kafkasource.consumer.test 
al.sinks.kl.type = file roll 

al.sinks.kl.channel = cl 

al.sinks.kl.sink.directory = /usr/local/fiume/output 





说 明 : Agent 名 称 为 a1，Source 名 称 为 [!，Sink 名 称 为 kK1，channel 名 称 为 c1，source 类 型 为 kafkasource，r1 对 接 的 channel 名 称 为 c1，r1 批 量 写 入 c1 的 最 大 消息 数 为 5000，r1 等 待 批量 写 入 c1 的 最 





长 时 间 为 2 秒 ，r1 拉 取 数 据 的 kafka broker 列 表 为 192.168.1.1:9092,192.168.1.2:9092，r1 消 费 的 主题 名 称 为 topictest1，r1 所 属 的 consumer group id 为 kafkasource.Consumertest，k1 类 型 为 


file_roll (输出 到 可 滚动 的 文件 中 ) ，Kk1 对 接 的 channel| 为 c1，k1 文 件 输 出 路 径 为 /usr/local/flume/output。 


(3) Exec Source 











支持 Linux 命 令 ， 收 集 标准 输出 数据 或 者 通过 tail-f file 的 方式 监听 指定 文件 。Exec Source 可 以 实现 实时 的 消息 传输 ， 但 是 它 不 记录 已 经 读 取 文件 的 位 置 ， 不 支持 断 点 续 传 ， 如 果 Exec Source 重 




















挂 掉 都 会 造成 后 续 增加 的 消息 丢失 ， 建 议 只 是 在 测试 环境 使 用 。 


关键 参数 说 明 : 


:type: source 类 型 为 exec。 
command: Linux 命 令 。 


"channels: Source 对 接 的 Channe1 名 称 。 


定义 规则 : 





启 或 者 





al.sources = rl 

al.channels = cl 

al.sinks = kl 

al.sources.rl .type = exec 

al.sources.rl.command = tail -F /var/log/test.10g 
al.sources.rl.channels = cl 

al.sjnks.k1.type = file roll 

al.sinks.kl.channel = cl 

al.sinks.kl.sink.directory = /usr/local/fiume/output 





说 明 : Agent 和 名 称 为 a1，Source 和 名称 为 r1，Sink 名 称 为 KL1，channel 名 称 为 c1，source 类 型 为 exec，r1 对 接 的 channel 名 称 为 c1，r1 通 过 tail-F 命 令 监听 /var/log/test.log 文 件 ，k1 类 型 为 file_roll ( 输 


出 到 可 滚动 的 文件 中 ) ，k1 对 接 的 channel 为 c1，k1 文 件 输出 路 径 为 /usr/local/flume/output。 


(4) Spooling Directory Source 





监听 一 个 文件 夹 ， 收 集 文 件 夹 下 新 文件 数据 ， 收 集 完 新 文件 数据 会 将 文件 名 称 的 后 缀 改 为 .COMPLETED， 缺 点 是 不 支持 老 文件 新 增 数据 的 收集 ， 并 且 不 能 够 对 嵌 套 文件 夹 递 妥 监听 。 





关键 参数 说 明 : 


“type: source 类 型 为 spooldir。 

“spoolDir: source 监 听 的 文件 夹 。 

"fileHeader: 是 否 添加 文件 的 绝对 路 径 到 event 的 header 中 ， 默 认 值 false。 

“fileHeaderKey: 添加 到 event header 中 文件 绝对 路 径 的 键 值 ， 默 认 值 file。 
“selector.type: 选择 器 类 型 ， 默 认 replicating (可 选 值 为 replicating 或 multiplexing) 。 
“fileSuffix: 收集 完 新 文件 数据 给 文件 添加 的 后 绥 名 称 ， 默 认 值 : .COMPLETED。 


"channels: Source 对 接 的 Channe1 名 称 。 


定义 规则 : 





al.sources = rl 

al.channels = cl 

al.sinks = kl 

al.sources.rl.type = spooldir 
al.sources.rl.channels = cl 

al.sources.rl1.spoolDir = /usr/local/flume/log 
al.sources.rl1.fileHeader = true 

al.sinks.kl.type = file roll 

al.sinks.kl.channel = cI 

al.sinks.kl1.sink.directory = /usr/local/flume/output 





说 明 : Agent 和 名 称 为 a1，Source 名 称 为 r1，Sink 名 称 为 kL1，channel 名 称 为 c1，source 类 型 为 spooldir，r1 对 接 的 channel 名 称 为 c1，r1 监 听 的 文件 夹 路 径 为 /usr/local/flume/log，r1 对 接 的 channel 
名 称 为 c1， 在 event 头 信息 中 添加 文件 绝对 路 径 信 息 ，k1 类 型 为 file_roll (输出 到 可 滚动 的 文件 中 ) ，Kk1 对 接 的 channel 为 c1，k1 文 件 输出 路 径 为 /usr/local/flume/output。 


(5) Taildir Source 














监听 一 个 文件 或 文件 夹 ， 通 过 正则 表达 式 匹配 需要 监听 的 数据 源 文件 ， 支 持 文件 夹 谋 套 递归 监听 (重要 source) ，Taildir Source 将 通过 监听 的 文件 位 置 写 入 到 文件 中 实现 断 点 续 传 ， 并 且 能 够 保证 没有 
重复 数据 的 读 取 。 














关键 参数 说 明 : 


“type: source 类 型 TAILDIR。 

-positionFile: 保存 监听 文件 读 取 位 置 的 文件 路 径 。 

:skipToEnd: 在 位 置 文件 中 没有 保存 监听 文件 的 位 置 是 否 直接 跳 到 文件 的 末尾 ， 默 认 值 false。 

"idleTimeout: 关闭 空闲 文件 延迟 时 间 ， 如 果 有 新 的 记录 添加 到 已 关闭 的 空闲 文件 taildir srouce 将 继续 打开 该 空闲 文件 ， 默 认 值 120000〈 单 位 : 毫秒 ) 。 

-writePosInterval: 向 保存 读 取 位 置 文件 中 写 入 读 取 文件 位 置 的 时 间 间 隔 ， 默 认 值 3000〈 单 位 ， 毫秒) 。 

-batchSize: 批量 写 入 channe1 最 大 event 数 ， 默 认 值 100。 

-maxBackoffSleep: 每 次 最 后 一 次 尝试 没有 获取 到 监听 文件 最 新 数据 的 最 大 延迟 时 间 ， 默 认 值 5000〈 单 位 : 毫秒 ) 。 

“backoffSleepIncrement: 每 次 最 后 一 次 尝试 没有 获取 到 监听 文件 最 新 数据 后 增加 延迟 时 间 的 幅度 ， 默 认 值 1000。 

:cachePatternMatching: 监听 的 文件 夹 下 通过 正则 表达 式 匹 配 的 文件 数量 可 能 会 很 多 ， 将 匹配 成 功 的 监听 文件 列表 和 读 取 文 件 列表 的 顺序 都 添加 到 缓存 中 可 以 提高 性 能 ， 默 认 值 true。 














`fileHeader: 是 否 添加 文件 的 绝对 路 径 到 event 的 header 中 ， 默 认 值 false。 
-fileHeaderKey: 添加 到 event header 中 文件 绝对 路 径 的 键 值 ， 默 认 值 file。 
-filegroups: 监听 的 文件 组 列表 ，taildirsource 通 过 文件 组 监听 多 个 目录 或 文件 。 
“filegroups.<filegroupName>: 文件 正则 表达 式 路 径 或 者 监听 指定 文件 路 径 。 


"channels: Source 对 接 的 Channe1 名 称 。 


定义 规则 : 





al.sources = rl al.channels = cl 

al.sinks = kl al.sources.rl.type = TAILDIR 

al.sources.rl.channels = cl 

al.sources.rl.positionFile = /usr/local/flume/position/taildir position.json al.sources.rl.filegroups = fl f2 
al.sources.rl.filegroups.fl = /usr/local/flume/log/testl/example.log al.sources.rl.filegroups.f2 = /usr/local/flume/log/test2/.*log.* 
al.sources.rl1.fileHeader = true 

al.sinks.kl.type = file roll 

al.sinks.kl.channel = cl 

al.sinks.kl1.sink.directory = /usr/local/flume/output 


说 明 : Agent 和 名 称 为 a1，Source 名 称 为 r1，Sink 名 称 为 KL1，Channel 名 称 为 c1，source 类 型 为 TAILDIR，r1 对 接 的 channel 名 称 为 c1， 保 存 监 听 文 件 读 取 位 置信 息 的 文件 路 径 
为 /usr/local/flume/position/taildir_position.json， 监 听 文 件 列表 包含 两 个 监听 文件 组 f1、f2，f1 监 听 指 定 log 文 件 /usr/local/flume/log/test1/example.log，f2 通 过 正则 表达 式 匹 
配 /usr/local/flume/log/test2/ 路 径 下 包含 log 关 键 字 的 所 有 文件 ， 并 且 将 文件 的 绝对 路 径 添 加 到 event 的 头 信息 中 ，k1 类 型 为 file_roll (输出 到 可 滚动 的 文件 中 ) ，k1 对 接 的 channel| 为 c1，k1 文 件 输出 路 径 








为 /usr/local/flume/output。 


2.Channel 





























Channel 被 设计 为 Event 中 转 临 时 缓冲 区 ， 存 储 Source 收 集 并 且 没 有 被 Sink 读 取 的 Event， 为 平衡 Source 收 集 和 Sink 读 取 数 据 的 速度 ， 可 视 为 Flume 内 部 的 消息 队列 。Channel 线 程 安全 并 且 具 有 事务 
性 ,支持 source 写 失败 重复 写 和 sink 读 失败 重复 读 等 操作 。 常 用 的 Channel 类 型 有 Memory Channel、File Channel、Kafka Channel 等 。 
































(1) Memory Channel 


对 比 Channel，Memory Channel 读 写 速 度 快 ， 但 是 存储 数据 量 小 ，Flume 进 程 挂 掉 、 服 务 器 停机 或 者 重启 都 会 导致 数据 丢失 。 部 署 FIlume Agent 的 线 上 服务 器 内 存 资源 充足 、 不 关心 数据 丢失 的 场景 
下 可 以 使 用 。 























关键 参数 说 明 : 


-type: channel 类 型 mnemory。 

capacity: channel 中 存储 的 最 大 event 数 ， 默 认 值 100。 

“transactionCapacity: 一 次 事务 中 写 入 和 读 取 的 event 最 大 数 ， 默 认 值 100。 

:keep-alive: 在 Channel 中 写 入 或 读 取 event 等 待 完 成 的 超时 时 间 ， 默 认 值 3 (单位 秒 )。 

-byteCapacityBufferPercentage: 缓冲 空间 占 Channel1 容 量 (byteCapacity) 的 百分比 ， 为 event 中 的 头 信息 保留 了 空间 ， 默 认 值 20〈 单 位 : 百分比 ) 。 
:byteCapacity: Channel 占 用 内 存 的 最 大 容量 ， 默 认 值 为 Flume 堆 内 存 的 80$， 如 果 该 参数 设置 为 0 则 强制 设置 Channel 占 用 内 存 为 200G。 


定义 规则 : 





al.sources = rl 
al.channels = cl 
al.sinks = kl 


al.channels.cl.type = memory 

al.channels.cl.capacity = 10000 
al.channels.cl.transactionCapacity = 10000 
al.sinks.kl.type = file roll 

al.sinks.kl.channel = cI 

al.sjinks.kl.sink.directory = /usr/local/flume/output 





说 明 : Agent 名 称 为 a1，Source 名 称 为 r!，Sink 名 称 为 k1，Channel 名 称 为 c1，channel 类 型 为 nemory，channel 中 存储 的 最 大 event 数 为 10000， 一 次 事务 中 可 读 取 或 添加 的 event 数 为 10000，k1 


类 型 为 file_roll (输出 到 可 滚动 的 文件 中 ) ，K1 对 接 的 channe| 为 c1，k1 文 件 输出 路 径 为 /usr/local/flume/output。 


(2) File Channel 








将 event 写 入 磁盘 文件 ， 与 Memory Channel 相 比 存 储 容量 大 ， 无 数据 丢失 风险 。File Channle 数 据 存储 路 径 可 以 配置 多 磁盘 文件 路 径 ， 通 过 磁盘 并 行 写 入 提高 File Channel 性 能 。Flume 将 Event 顺 序 








写 入 到 File Channel 文 件 的 末尾 ， 在 配置 文件 中 通过 设置 maxFilesize 参 数 配 置 数据 文件 大 小 ， 当 被 写 入 的 文件 大 小 达到 上 限时 Flume 会 重新 创建 新 的 文件 存储 写 入 的 Event。 当 然 数据 文件 数量 也 不 会 无 限 
增长 ， 当 一 个 已 关闭 的 只 读数 据 文 件 中 的 Event 被 读 取 完 成 ， 并 且 Sink 已 经 提交 读 取 完 成 的 事务 ， 则 Flume 将 删除 存储 该 数据 的 文件 。Flume 通 过 设置 检查 点 和 备份 检查 点 实现 在 Agent 重 启 之 后 快速 将 File 


Channle 中 的 数据 按 顺序 
































放 到 内 存 中 ， 保 证 在 Agent 失 败 重启 后 仍然 能 够 快速 安全 地 提供 服务 。 





回 








关键 参数 说 明 : 


-type: channel 类 型 为 file。 
“checkpointDir: 检查 点 目录 ， 默 认 在 启动 flume 用 户 目录 下 创建 ， 建 议 单独 配置 磁盘 路 径 。 


-useDualCheckpoints: 是 否 开启 备份 检查 点 ， 默 认 false， 建 议 设置 为 true 开 启 备份 检查 点 ， 备 份 检查 点 的 作用 是 当 Rgent 意 外 出 错 导致 写 入 检查 点 文件 异常 ， 在 重新 启动 File Channel 时 通过 备份 检查 点 将 数据 回放 到 内 存 
中 ， 如 果 不 开 启 备份 检查 点 ， 在 数据 回放 的 发 现 检查 点 文件 异常 会 对 所 有 数据 进行 全 回放 ， 全 回放 的 过 程 相当 耗 时 。 


“backupCheckpointDir: 备份 检查 点 目录 ， 最 好 不 要 和 检查 点 目录 (checkpointDir) 在 同一 块 磁盘 上 。 

“checkpointInterval: 每 次 写 检查 点 的 时 间 间 隔 ， 默 认 值 30000〈 单 位 ; 毫秒 ) 。 

:dataDirs: 存储 event 信 息 磁 盘存 储 路 径 ， 建 议 配置 多 块 盘 的 多 个 路 径 ， 通 过 磁盘 的 并 行 写 入 来 提高 file channel 性 能 ， 多 个 磁盘 路 径 用 逗号 隔 开 。 
“transactionCapacity: 一 次 事务 中 写 入 和 读 取 的 event 最 大 数 ， 默 认 值 10000。 

-maxFileSize: 每 个 数据 文件 的 最 大 大 小 ， 默 认 值 : 2146435071 (单位 : 字 节 ) 。 

-minimumRequiredSpace: 磁盘 路 径 最 小 剩余 空间 ， 如 果 磁 盘 剩 余 空间 小 于 设置 值 ， 则 不 再 写 入 数据 。 
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-capacity: file channel 可 容纳 的 最 大 event 数 。 
keep-alive: 在 Channe1l 中 写 入 或 读 取 event 等 待 完成 的 超时 时 间 ， 默 认 值 3 (单位 : 秒 ) 。 


定义 规则 : 





al.sources = rl 

al.channels = cl 

al.sinks = kl 

al.channels.cl.type = file 

al.channels.cl1.checkpointDir = /usr/local/flume/checkpoint 
al.channels.cl.dataDirs = /datal, /data2 
al.channels.cl.useDualCheckpoints = true 
al.channels.cl1.backupCheckpointDir = /data/flume/backup/checkpoint 
al.sinks.kl.type = file roll 

al.sinks.kl.channel = cI 

al.sinks.kl1.sink.directory = /usr/local/flume/output 








说 明 : Agent 和 名称 为 a1，Source 名 称 为 r1，Sink 名 称 为 k1，Channel 名 称 为 c1，channe| 类 型 为 file， 检 查 点 路 径 为 /usr/local/flume/checkpoint， 数 据 存放 路 径 为 /datal1，/data2， 开 启 备 份 检查 
备份 检查 点 路 径 为 /data/flume/backup/checkpoint，k1 类 型 为 file_roll，k1 对 接 的 channe| 为 c1，k1 文 件 输出 路 径 为 /usr/local/flume/output。 


(3) Kafka Channel 














将 Kafka 作 为 Channel 存 储 ，Kafka 是 分 布 式 、 可 扩展 、 高 容错 、 高 吞吐 的 分 布 式 系统 ，Kafka 通 过 优秀 的 架构 设计 充分 利用 磁盘 顺序 特性 ， 在 廉价 的 硬件 条 件 下 完成 高 效 的 消息 发 布 和 订阅 。 




















Memory Channel 在 使 用 的 过 程 中 受 内 存 容量 的 限制 不 能 缓存 大 量 的 消息 ， 并 且 如 果 Memory Channel 中 的 消息 没 来 得 及 写 入 Sink， 此 时 Agent 出 现 故障 就 会 造成 数据 丢失 。File Channel 虽 然 能 够 缓 


























存 更 多 的 消息 ， 但 如 果 缓 存 下 来 的 消息 还 没有 写 入 Sink， gril 二 File Channel 中 的 消息 不 能 被 继续 使 用 ， 直 到 该 Agent 重 新 恢复 才能 够 继续 使 用 File Channel 中 的 消息 。Kafka Channel 相 对 


于 Memory Channel 和 File Channel 存 储 容量 更 大 、 容 错 能 力 更 强 ， 弥 补 了 其 他 两 种 Channel 的 短 板 ， 如 果 合理 利用 Kafka 的 性 能 ,能够 达到 事半功倍 的 效果 。 










































































有 了 Kafka Channel 可 以 在 日 志 收 集 层 只 配置 Source 组 件 和 Kafka Channel 组 件 ， 不 需要 再 配置 Sink 组 件 ， 减 少 了 日 志 收 集 层 启动 的 进程 数 并 且 有 效 降低 服务 器 内 存 、 磁 盘 等 资源 使 用 率 ， 日 志 汇 聚 层 






























































可 以 只 配置 Kafka Channel 和 Sink， 不 需要 再 配置 Source， 减 少 日 志 汇聚 层 的 进程 数 ， 这 样 的 配置 既 能 降低 服务 器 的 资源 使 用 率 又 能 减少 Event 在 网 络 之 间 的 传输 ， 有 效 提高 日 志 采 集 系 统 的 性 能 。 

















关于 Kafka 的 详细 介绍 请 参考 第 9 章 分 布 式 消息 队列 的 介绍 。 


关键 参数 说 明 : 


七 Ype: Kafka Channel 类 型 ， 值 为 org.apache.flume.channel .kafka.KafkaChannel。 
"kafka.bootstrap.servers: Kafka broker 列 表 ， 格 式 为 jpl:port1l1, ip2:port2..， 建 议 配置 多 个 值 提高 容错 能 力 ， 多 个 值 之 间 用 逗号 隔 开 。 


"kafka.topic: topic 名 称 ， 默 认 值 *flume-channe1”。 


"kafka.consumer.group.id: Consumer 组 id，Kafka Channel 使 用 consumer.group.id 注 册 到 Kafka， 该 值 是 连接 kafka 集 群 的 唯一 值 ， 同 一 组 内 可 以 有 多 个 Consumer， 多 个 Consumer 之 间 是 互 不 干扰 的 ， 一 个 主题 下 的 一 
条 消息 贡 能 被 同 组 册 的 一 个 consumer 消 费 ， 其 中 的 一 个 consumer 消 费 失败 其 他 的 Consumer 会 继续 消费 。 基 于 这 个 特性 ， 可 以 有 多 个 Agent 的 Kafka Channel1 使 用 相同 的 consumer.group.id， 当 一 个 Agent 运 行 失败 则 其 他 


费 ， 
Agent 可 以 继续 消费 ， 很 容易 地 虽 宫 了 六 各 的 容错 能 ， 默 认 值 *flume”。 


-parseAsFlumeEvent: 是 否 以 Avro FlumeEvent 模 式 写 入 到 Kafka Channel 中 ， 如 果 写 入 到 Kafka Channel 中 主题 的 Producer 只 有 Flume Source 则 该 参数 应 该 设置 为 true， 如 果 有 其 他 Producer 也 同时 在 向 同一 主题 写 数 
据 则 该 参数 应 该 设置 为 false，Flume Source 写 入 到 Kafka 的 消息 在 Kafka 外 部 需要 使 用 flume-ng-sdk 提 供 的 org.apache.flume.source.avro.AvroFElumeEvent 类 解析 ， 默 认 值 true。 


-migrateZookeeperOffsets: 是 丰 否 迁 移 Zookeeper 中 存储 的 Consumer 消 费 的 偏 移 量 到 Kafka 中 ， 主 要 是 为 了 兼容 Kafka0 .9 以 下 版 本 的 Kafka，Kafka0.9 以 下 版 本 consumer 消 费 的 偏 移 量 保 存在 Zookeeper 中 ，0.9 之 后 的 版 
本 开始 将 偏 移 量 保存 到 Kafka 的 一 个 个 主题 中 。 默 认 值 true。 


-PollTimeout: 轮 询 超 时 时 间 ， 默 认 值 500 毫 秒 。 


-kafka.consumer .auto,offset .reset; 当 Kafka 中 没有 Consumez 消 费 的 初始 偏 移 量 或 者 当前 偏 移 量 在 Kafka 中 不 存在 〈 比 如 数据 已 经 被 删除 ) 情况 下 consumer 选 择 从 Kafka 拉 取消 息 的 方式 。earliest 表 示 从 最 早 的 偏 移 量 
开始 拉 取 ，1latest 表 示 从 最 新 的 偏 移 量 开 始 拉 取 ，none 表 示 如 果 没 有 发 现 该 Consumer 组 之 前 拉 取 的 偏 移 量 则 抛 出 异常 。 官 方 文档 介绍 默认 值 是 latest， 但 是 从 源码 中 查看 是 earliest。 




















:kafka.enable.auto.commit: Consumer 是 否 自 动 提交 偏 移 量 ， 默 认 值 false。 


Kafka Channel 相 关 操作 在 org.apache.flume.channel.kafka 包 的 KafkaChanne| 类 定义 ，kafka 相 关 参 数 的 默认 值 在 org.apache.kafka.clients.CommonClientConfigs 包 中 的 KafkaChannel- 


Configuration 中 。Kafka 的 通用 配置 参数 在 配置 文件 中 都 以 “kafka.” 为 前 级， 针对 Producer 或 者 Consumer 的 相关 配置 以 “kafka.producer.” 或 者 “kafka.consumer.” 为 前 缀 ， 源 码 
KafkaChannelConfiguration 中 相关 默认 配置 参数 定义 如 下 : 





KAFKA PREFIX = "kafka."7 
KAFKA CONSUMER PREFIX 
KAFKA PRODUCER PREFIX 
DEFAULT ACKS = "all"; 
DEFAULT KEY SERIALIZER ="org.apache.kafka.common.serialization.StringSerializer"; 
DEFAULT VALUE SERIAIZER ="org.apache.kafka.common.serialization 
.ByteArraySerializer"; 
DEFAULT KEY DESERIALIZER ="org.apache.kafka.common.serialization 


KAFKA PREFIX + "consumer."; 
KAFKA PREFIX + "producer."; 


.StringDeserializer"; 
DEFAULT VALUE DESERIAIZER ="org.apache.kafka.common.serialization 
人 六 .ByteArrayDeserializer"; 
TOPIC CONFIG = KAFKA PREFIX + "topic"; 
BOOTSTRAP SERVERS CONFIG =KAFKA PREFIX + CommonClientConfigs 
.BOOTSTRAP_SERVERS CONFIG; 
DEFAULT TOPIC = "flume-channel"; 
DEFAULT GROUP ID = "flume"; 
POLL TIMFEOUT = KAFKA PREFIX + "pollTimeout"; 
DEFAULT POLL TIMEOUT = 500; 
KEY HEADER = "key"; 
DEFAULT AUTO OFFSET RESET = "earliest"; 
PARSE AS FLUME EVENT = "parseAsFlumeEvent"; 
DEFAULT BARSE AS FLUME FEVENT = true; 
PARTITION HEADER NAME = "partitionIdHeader"; 
STATIC PARTITION CONF = "defaultPartitionId"; 
MIGRATE ZO0KEEPER OFFSETS = "migrateZookeeperOffsets"; 
public static final boolean DEFAULT MIGRATE 2O0KEEPER OFFSETS = true; 
/*** Flumel.7 以 前 版 本 默认 参数 ****/ 本 
BROKER LIST KEY = "metadata.broker.list"; 
REQUIRED ACKS KEY = "request.required.acks"; 
BROKER LIST FLUME KEY = "brokerList"; 
//TOPIC = "Eopicn7 
GROUP ID FLUME = "groupId"; 
AUTO COMMIT ENABLED = "auto.commit.enable"; 
ZOOKEEPER CONNECT = "zookeeper.connect"; 
ZOOKEEPER CONNECT FLUME KEY = "zookeeperConnect"; 
TIMEOUT = "timeout"; 
DEFAULT TIMEOUT = "100"; 
CONSUMER TIMEOUT = "consumer.timeout .ms"; 
READ SMALLEST OFFSET = "readsmallestOffset"; 
DEFAULT READ SMALLEST OFFSET = false; 








定义 规则 : 





al.channels = cl 

al.sinks = kl 

agent1.channels. cl.type = org.apache.flume.channel .kafka.KafkaChannel 
agentl1.channels. cl.kafka.bootstrap.servers = 192.168.1.3:9092, 192.168.1.4:9092 
agentl.channels. cl.kafka.topic = ad channel 

agent1.channe1s. cl.kafka.consumer.group.id = ad-consumer 

al.sinks. kl .type = file roll 

al.sinks.kl.channel = cl 

al.sinks.kl.sink.directory = /usr/local/flume/output 











说 明 : agent1 没 有 配置 Source， 只 配置 了 Channel 和 Sink， 使 用 的 Channel 类 型 为 Kafka Channel， 主 题名 称 为 “ad_channel”，consumer 组 id 为 “ad-consumer”，Sink 类 型 为 file_rol 滚 动 生成 
文件 ， 对 接 的 Channe| 为 Kafka Channel c1。 











3.Sink 


(1) Avro Sink 















































Avro Sink 常 用 于 对 接 下 一 层 的 Avro Source， 通 过 发 送 RPC 请 求 将 Event 发 送 到 下 一 层 的 Avro Source， 由 于 通过 RPC 请 求 发 送 Event 会 占用 大 量 的 网 络 资源 ， 如 果 采 用 单条 发 送 不 但 要 占用 大 量 的 网 络 
资源 还 会 产生 大 量 的 Socket 连 接 ， 增 加 系统 负载 。 为 了 解决 上 述 问题 ，Avro Sink 提 供 了 端 到 端的 批量 压缩 数据 传输 ， 根 据 实际 使 用 场景 设置 合适 的 批量 大 小 和 是 否 使 用 压缩 。 










































































关键 参数 说 明 : 


“type: Sink 类 型 为 avro。 


“hostname: 绑 定 的 目标 avro Souce 主 机 名 称 或 者 ITP。 





-port: 绑 定 的 目标 Avro Souce 端 口号 。 

“batch-size: 批量 发 送 Event 数 ， 默 认 值 100。 

“compression-type: 是 否 使 用 压缩 ， 如 果 使 用 压缩 则 设 值 为 "deflate”，Avro Sink 设 置 了 压缩 那么 Avro Source 也 应 设置 相同 的 压缩 格式 ， 目 前 支持 z1ib 压 缩 ， 默 认 值 none。 
“compression-level: 压缩 级 别 ，0 表 示 不 压缩 ， 从 1 到 9 数字 越 大 压缩 效果 越 好 ， 默 认 值 6。 


定义 规则 : 





agent1.channels = cl 

agent1.sinks = kl 

agent1.sinks.kl.type = avro 
agent1.sinks.kl.channel = cl 
agent1.sinks.kl.compression-typ = deflate 
agent1.sinks.kl.compression-level = 6 
agent1.sinks.kl.hostname = 192.168.1.1 
agent1.sinks.k1l.Port = 7878 


说 明 : 将 Event 以 压缩 的 方式 发 送 到 192.168.1.1:7878 的 Avro Source。 


(2) HDFS Sink 











HDFS 是 目前 主流 的 分 布 式 文件 系统 ， 具 有 高 容错 、 可 扩展 、 高 性 能 、 低 成 本 等 特点 。HDFS Sink 将 Event 写 入 HDFS 文 件 存储 ， 能 够 有 效 的 长 期 存储 大 量 数据 。 





关键 参数 说 明 : 


-type: Sink 类 型 为 hdfs。 
“hdfs .path: HDFS 存 储 路 径 ， 支 持 按 日 期 时 间 分 区 。 
-hdfs.filePrefix: Event 输 出 到 HDFS 的 文件 名 前 级 ， 默 认 前 缀 FlumeData。 


-hdfs.fileSuffix: Event 输 出 到 HDFS 的 文件 名 后 级 。 





“hdfs.inUsePrefix: Flume 首 先 将 Event 输 出 到 HDFS 指 定 目录 的 临时 文件 中 ， 然 后 按照 配置 的 命名 规则 将 临时 文人 
-hdfs .inUseSuffix: 临时 文件 名 后 经， 默认 值 为 .tmp。 
-hdfs.rollInterval: HDFS 文 件 滚动 生成 时 间 间 隔 ， 默 认 值 为 30 秒 ， 该 值 设置 为 0 表示 文件 不 根据 时 间 深 动 生成 。 

“hdfs.rol1Size: 临时 文件 滚动 生成 大 小 ， 默 认 值 为 1024B， 该 值 设 置 为 0 表示 文件 不 根据 文件 大 小 滚动 生成 。 

-hdfs.rollCount: 临时 文件 滚动 生成 的 Event 数 ， 默 认 值 为 10， 该 值 设置 为 0 表示 文件 不 根据 Event 数 滚动 生成 。 

-hdfs.idleTimeout: 临时 文件 等 待 Eevent 写 入 的 超时 时 间 ， 达 到 超时 时 间 临 时 文件 自动 关闭 重 命名 为 目标 文件 名 称 ， 默 认 值 为 0 秒 ， 该 值 设置 为 0 表示 禁用 此 功能 ， 不 自动 关闭 临时 文件 。 
“hdfs.batchSize: Flume 批 量 写 入 HDFS 的 Event 数 量 ， 默 认 值 为 100。 





命名 为 目标 文件 。 





hdfs .codeC: 文件 压缩 格式 ， 目 前 支持 的 压缩 格式 有 gzip、bzip2、1zo、1zop、snappPy， 默 认 不 采用 压缩 。 


ye 文件 类 型 ， 该 值 设 置 为 Datastream 则 输出 的 文件 不 会 进行 压缩 ， 不 需要 设置 hdfs .codeC 指 定 压缩 格式 。 该 值 设置 为 CompressedStream 则 对 输出 的 文件 进行 压缩 ， 需 要 设置 hdfs .codeC 指 定 压缩 格式 。 默 认 
为 SequenceFile。 


“hdfs .maxOpenFiles: 打开 HDFS 的 最 大 文件 数 ， 如 果 超 过 打开 的 最 大 文件 数 ， 则 最 早 打开 的 文件 先 关闭 。 
-hdfs .minBlockReplicas: HDFS 文 件 块 副本 数 。 











“hdfs.writeFormat: Sequence 文 件 格式 ， 目 前 可 以 选择 Text 或 者 Writable 两 种 格式 ， 默 认 值 为 nritable。 

-hdfs.callTimeout: 操作 HDFS 文 件 的 超时 时 间 ， 如 果 需 要 写 入 HDFS 文 件 的 Event 数 比较 大 或 者 发 生 了 打开 、 写 入 、 刷 新 、 关 闭 文件 超时 的 问题 ， 可 以 根据 实际 情况 适当 增 大 超时 时 间 。 默 认 值 为 10000 毫 秒 。 
“hdfs.threadsPoolSize: 每 个 HDFS Sink 执 行 HDFS IO 操作 打开 的 线程 数 ， 默 认 值 为 10。 

"hdfs.rollTimerPoolSize: HDFS Sink 根 据 时 间 滚 动 生成 文件 时 启动 的 线程 数 ， 默 认 值 为 1。 

-hdfs.round: 用 于 HDFS 文 件 按照 时 间 分 区 ， 时 间 戳 向 下 取 整 ， 默 认 值 为 false。 

“hdfs.roundValue: 当 round 设 置 为 true， 配 合 roundUnit 时 间 单 位 一 起 使 用 ， 例 如 roundUnit 值 为 minute， 该 值 设置 为 1 则 表示 一 分 钟 之 内 的 数据 写 到 一 个 文件 中 ， 相 当 于 每 一 分 钟 生成 一 个 文件 。 默 认 值 为 1。 
"hdfs.roundUnit: 按时 间 分 区 使 用 的 时 间 单位 ， 可 以 选择 second ( 秒 ) 、minute (分 钟 ) 、hour (小 时 ) 三 种 粒度 的 时 间 单 位 ， 默 认 值 为 second。 








“hdfs.timeZone: 写 入 HDFS 文 件 使 用 的 时 区 ， 默 认 值 Local Time 本 地 时 间 。 
“hdfs.useLocalTimeStamp: 是 否 使 用 本 地 时 间 替 换 Event 头 信息 中 的 时 间 蕉 ， 默 认 值 false。 


“hdfs.closeTries: 在 发 起 关闭 尝试 后 ， 尝 试 重 命名 临时 文件 的 次 数 。 如 果 设 置 为 1， 表 示 重 命名 一 次 失败 后 不 再 继续 尝试 重 命名 操作 ， 此 时 待 处 理 的 文件 将 处 于 打开 状态 ， 扩 展 名 为 .tmp。 如 果 设 置 为 0， 表 示 尝 试 重 命 名 操作 
次 数 不 受 限制 ， 直 到 文件 最 终 被 重 命名 成 功 。 如 果 close 调 用 失败 ， 文 件 可 能 仍然 会 处 于 打开 状态 ， 但 是 文件 中 的 数据 将 保持 完整 ， 文 件 会 在 Flume 重 启 后 关闭 。 默 认 值 为 0。 


“hdfs.retryInterval: 连续 尝试 关闭 文件 的 时 间 间 隔 。 如 果 设 置 为 0 或 小 于 0 的 数 ， 第 一 次 尝试 关闭 文件 失败 后 将 不 会 继续 尝试 关闭 文件 ， 文 件 将 保持 打开 状态 或 者 以 ^.tmp“ 扩 展 名 结尾 的 临时 文件 。 默 认 值 为 180 秒 。 


“serializer: 序列 化 方式 ， 可 选 值 有 TEXT、avro_event 或 者 实现 EventSerializer.Builder 接 口 的 类 ， 默 认 值 为 TEXT。 












































定义 规则 : 





agent1.channels = cl 

agent1.sinks = kl 

agent1.sinks.kl.type = hdfs 
agent1.sinks.kl.channel = cl 
agent1.sinks.kl.hdfs.path = /data/ad/%ysm%d/%H 
agent1.sinks.kl.hdqfs.filePrefix = ad- 
agent1.sinks.kl.hdfs.round = true 
agent1.sinks.kl.hdfs.roundValue = 1 
agent1.sinks.kl.hdfs.roundUnit = minute 
agent1.sinks.kl.hdqfs， callTimeout = 60000 





说 明 : 








Event 将 会 被 写 入 到 HDFS 的 /data/ad 路 径 下 ， 并 且 按照 “年 月 日 /小 时 ”分 区 ， 生 成 的 文件 前 缀 为 “ad-” ， 每 一 分 钟 生 成 一 个 文件 。 


(3) Kafka Sink 





Kafka 是 一 款 开 源 的 分 布 式 消息 队列 ， 在 消息 传递 过 程 中 引入 Kafka 会 从 很 大 程度 上 降低 系统 之 间 的 耦合 度 ， 提 高 系统 稳定 性 和 容错 能 力 。Flume 通 过 Kafka Sink 将 Event 写 入 到 Kafka 中 的 主题 ， 其 他 应 
通过 订阅 主题 消费 数据 。Flume1.7 开 始 支持 Kafka0.9 及 以 上 版 本 。 




















关键 参数 说 明 : 


-type: Sink 类 型 ， 值 为 KafkaSink 类 路 径 org.apache.flume.sink.kafka.KafkaSink。 

“kafka.bootstrap.servers: Broker 列 表 ， 定 义 格式 host:port， 多 个 Broker 之 间 用 逗号 隔 开 ， 可 以 配置 一 个 也 可 以 配置 多 个 ， 用 于 Producer 发 现 集群 中 的 Broker， 建 议 配 置 多 个 ， 防 止 当前 Brokezr 出 现 问 题 连接 失败 。 
“kafka.topic: Kafka 中 Topic 主 题名 称 ， 默 认 值 为 flume-topic。 
-flumeBatchSize: Producer 端 单 次 批量 发 送 的 消息 条 数 ， 该 值 应 该 根据 实际 环境 适当 调整 ， 增 大 批量 发 送 消息 的 条 数 能 够 在 一 定 程度 上 提高 性 能 ， 但 是 同时 也 增加 了 延迟 和 Producer 端 数据 丢失 的 风险 。 默 认 值 为 100。 
"kafka.producer.acks; 设置 Producer 息 到 Borker 是 否 等 待 接收 Broker 返 回 成 功 送 达 信号 。0 表 示 Producet 发 送 消息 到 Broker 之 后 不 需要 等 待 Broker 返 回 成 功 送 达 的 信号 ， 这 种 方式 吞吐 量 高 ， 但 是 存在 数据 丢失 
的 风险 ，*retries“ 配 置 的 发 送 消息 失败 重 试 次 数 将 失效 。 j 靶 时 Beokez 接 改 轩 消息 成 功 写 入 本 地 1og 文件 后 向 Producer 返 回 成 功 接收 的 信号 ， 不 需要 等 待 所 有 的 Follower 全 部 \ 后 再 做 回应 ， 这 种 方式 在 数据 于 类 风险 
人 量 之 间 做 了 平衡 。al1 (或 者 -1) 表示 Broker 接 收 到 Producer 的 消息 成 功 写 入 水 地 Tog 放 且 和 和 竺 所 有 的 Follower 成 功 写 入 本 地 1og 后 向 producez 返 回 成 功 接收 的 信 号 ， 这 种 方式 能 够 保证 消息 不 丢失 ， 但 是 性 能 最 差 。 默认 
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-useFlumeEventFormat: 默认 情况 下 ，Producer 只 会 将 Event 主 体 信 息 以 字 节 形式 发 送 到 Kafka Topic 中 。 如 果 设 置 为 true，Producer 发 送 到 Kafka Topic 中 的 Event 将 能 够 保留 Producer 端 头 信息 ， 以 Flume Avro 二 进 制 
形式 存储 ， 结 合 下 游 Kafka Source 或 者 Kafka Channel 中 的 parseAsFlumeEvent 属 性 一 起 使 用 。 默 认 值 为 false。 




























| 
眶 





























其 他 关于 Kafka Producer 端 的 属性 设置 请 参考 Kafka Producer 相 关 配 置 说 明 ， 如 果 在 Flume 中 使 用 其 他 Kafka Producer 相 关 配 置 ， 直 接 使 用 Producer.property 形 式 设置 。 














Kafka Producer 详 细 配 置 说 明 访 问 地 址 : 
http://kafka.apache.org/090/documentation.html#producerconfigs。 


定义 规则 : 





al.sinks.kl.channel = cl 

al.sinks.kl.type = org.apache.flume.sink.kafka.KafkaSink 

al.sinks.kl.kafka.topic = ad topic 

al.sinks.kl.kafka.bootstrap.SerVers = 192.168.1.1:9092,192.168.1.2:9092,192.168.1.3:9092 
al.Sinks.kl.kafka.flumeBatchSize = 100 

al.sinks.kl.kafka.producer.acks = 1 

al.sinks.kl1.kafka.producer.linger.ms = 10 

al.sinks.ki.kafka.producer.compression.type = 1z4 











说 明 : 使 用 Kafka Sink 向 “ad topic” 主 题 批 量 发 送 |z4 压 缩 的 消息 ， 批 量 发 送 的 消息 数量 为 100， 延 迟 发 送 时 间 为 10 毫 秒 。 

















6.2 ”Flume 应 用 实践 


6.2.1 ”拦截 器 、 选 择 器 实践 


1. 拦 截 器 




















Source 将 Event 写 入 到 Channel 之 前 可 以 使 用 拦截 器 对 Event 进 行 各 种 形式 的 处 理 ，Source 和 Channel 之 间 可 以 有 多 个 拦截 器 ， 不 同 的 拦截 器 使 用 不 同 的 规则 处 理 Event。 拦 截 器 是 比较 轻 量 级 的 插件 ， 
不 建议 使 用 拦截 器 对 Event 进 行 过 于 复杂 的 处 理 ， 复 杂 的 处 理 操作 可 能 需要 耗费 更 多 的 时 间 ， 对 Flume 整 体 性 能 会 产生 负面 的 影响 。 






































Flume 已 经 提供 的 拦截 器 有 时 间 戳 拦截 器 (Timestamp Interceptor) 、 主 机 拦截 器 (Host Interceptor) 、UUID 拦 截 器 (UUID Interceptor) 、 静 态 拦截 器 (Static Interceptor) 、 正 则 表达 式 过 滤 
拦截 器 (Regex Filtering Interceptor) 、 搜 索 -替换 拦截 器 (Search and Replace Interceptor) 等 多 种 形式 的 拦截 器 。Flume 也 支持 自 定义 编写 拦截 器 ， 只 需 实现 Interceptor 接 口 ， 下 面 主要 介绍 时 间 戳 
拦截 器 、 主 机 拦截 器 及 静态 拦截 器 。 








(1) 时 间 戳 拦截 器 (Timestamp Interceptor) 






































Flume 使 用 时 间 戳 拦截 器 在 Event 头 信息 中 添加 时 间 戳 信息 ，Key 为 timestamp，Value 为 拦截 器 拦截 Event 时 的 时 间 戳 。 头 信息 时 间 戳 的 作用 ， 比 如 HDFS 存 储 的 数据 采用 时 间 分 区 存储 ，Sink 可 以 根据 
Event 头 信息 中 的 时 间 戳 将 Event 按 照 时 间 分 区 写 入 到 HDFS。 




















关键 参数 说 明 : 


-type: 拦截 器 类 型 为 timestamp。 
“preserveExisting: 如 果 头 信息 中 存在 timestamp 时 间 蕉 信 息 ， 


定义 规则 : 


是 否 保留 原来 的 时 间 鹤 信 息 ， 


true 保 留 ，false 使 用 新 的 时 间 鹤 普 换 已 经 存在 的 时 间 礁 ， 默 认 值 为 false。 





# 配 置 Agent 

agentl.sources = rl 
agentl.channels = cl 

# 设 置 时 间 截 拦截 器 
agent1.sources.rl1.interceptors = il 


agent1 .sources.rl1.interceptors.il.type = timestamp 





(2) 主机 拦截 器 (Host Interceptor) 











Flume 使 




















的 作 

















关键 参数 说 明 : 


七 Ype: 拦截 器 类 型 为 timestamp。 

-preserveExisting: 如 果 头 信息 中 存在 主机 信息 是 否 保留 原来 的 
useIP: 是 否 使 用 IP 作 为 主机 信息 写 入 头 信息 ， 默 认 值 为 false。 
“hostHeader: 设置 头 信息 中 主机 信息 的 Key， 默 认 值 为 host。 














定义 规则 : 


E 机 信息 ，true 保 留 ，false 使 用 新 的 3 





当 息 蔡 换 已 经 存在 的 主机 信息 ， 默 认 值 为 false。 





主机 戳 拦 截 器 在 Event 头 信息 中 添加 主机 名 称 或 者 |P，Key 通 过 参数 hostHeader 配 置 ， 默 认 值 host， 如 果 配 置 参 数 uselP 设 置 为 false 则 Value 值 为 主机 名 称 ， 反 之 Value 值 为 |P。 主 机 拦截 器 
， 比 如 Source 将 Event 按 照 主机 名 称 写 入 到 不 同 的 Channel 中 便于 后 续 Sink 对 不 同 Channnel 中 的 数据 分 开 处 理 。 





agentl.sources = rl 

agentl.channels = cl 
# 设 置 主机 拦截 器 

agent1.Sources . 
agent1.Ssources . 
# 使 用 IP 作 为 主 
agent1.Sources . 
agent1.Sources . 


.interceptors = il 
.interceptors.il.type = host 
;入 头 信息 


呈 忆 








.interceptors.il. useIP = true 


.interceptors.il.hostHeader = ip 





(3) 静态 拦截 器 (Static Interceptor) 


关键 参数 说 明 : 


"PreserveExisting: 如 果 头 信息 中 存在 可 设置 的 键 是 否 保留 原来 信息 ，true 保 留 ， 


:key: 头 信息 中 的 键 。 
息 中 键 对 应 的 值 。 





-value: 头 信 


定义 规则 : 


false 使 用 新 的 键 值 蔡 换 已 经 存在 的 键 值 ， 默 认 值 为 false。 





sources = rl 

channels = cl 

sources.rl1.interceptors = il 

sources.rl1 .interceptors.il.type = static 
Sources .zl.jinterceptors.il.key = logtype 
Sources .zl.interceptors.il.value = ad 


agent1l. 
agent1l. 
agent1l. 
agent1l. 
agent1l. 
agent1l. 





2. 选 择 器 


Source 发 送 的 Event 通 过 Channle 选 择 器 来 选择 以 哪 种 方式 写 入 到 Channel 中 ，Flume 提 供 三 种 类 型 Channel 选 择 器 ， 分 别 是 复制 Channel 选 择 器 (Replicating Channel Selector) 、 复 上 


择 器 (Multiplexing Channel Selector) 和 自 定义 选择 器 。Flume 提 供 多 种 选择 器 主要 是 为 了 满足 各 种 组 合式 场景 ， 能 够 在 不 同 场景 下 保证 Event 灵 活 、 可 靠 地 传输 。 下 面 将 重点 介绍 前 面 两 种 选择 器 。 


(1) 复制 Channel 选 择 器 (Replicating Channel Selector) 











Channel 选 












































如 果 Channel 选 择 器 没有 指定 ， 默 认 是 复制 Channel 选 择 器 。 复 制 选择 器 从 字面 合 义 非常 容易 理解 ， 即 一 个 Source 以 复制 的 方式 将 一 个 Event 同 时 写 入 到 多 个 Channel 中 ， 不 同 的 Sink 可 以 从 不 同 的 























Channel 中 获取 相同 的 Event， 比 如 同一 份 日 志 的 数 同时 写 入 Kafka 




















于 实时 计算 ， 另 外 需要 保存 一 份 原始 








志 到 HDFS 用 于 校 验 和 校正 结果 数 





而 


不 同类 型 的 Sink 发 送 到 不 同 的 外 部 存储 。 


关键 参数 说 明 : 


“selector.type: Channel 选 择 器 类 型 为 replicating。 





selector.optional: 定义 可 选 Channe1， 多 个 可 选 Channel 之 间 用 空格 隔 开 。 


定义 规则 : 











居 ， 这 





Te 


一 个 Event 同 时 写 入 两 个 Channel， 然 后 被 





agentl.sources = rl 
agentl.channels = cl c2 c3 
agent1.sinks = kl k2 k3 

# 定 义 source 
agent1.Sources . 
agent1.Sources . 
agent1.Sources . 
agent1.Sources . 
# 设 置 选 择 器 
agent1.sources . 
agent1.sources . 
agent1.Sources . 
# 设 置 channel cl 
agent1 .channels. 
agentl1.channels. 
agent1.channels. 
agent1.channels. 
agent1.channels. 
# 设 置 channel c2 
agent1.channels. 
agentl.channels. 
agent1 .channels. 
agent1.channels. 
agent1.channels. 
# 设 置 channel c3 
agent1.channels . 
agent1.channels . 
agent1.channels. 
agent1l1.channels. 


.type = avro 

.bind = 192.168.1.1 
.port = 9876 
.Channels = cl c2 
.Selector .type = 
.Channels = cl c2 
.Selector.optional = c3 


replicating 


.type = memory 

.capacity = 10000 
.transactionCapacity = 10000 
.byteCapacityBufferPercentage = 
‘byteCapacity = 800000 


20 


:type = memory 

.capacity = 10000 
.transactionCapacity = 10000 
.byteCapacityBufferPercentage 
.byteCapacity = 800000 


20 


:type = memory 
.Capacity = 10000 
.transactionCapacity = 10000 


.byteCapacityBufferPercentage = 20 


agent1.channe1s.c3.byteCapacity = 800000 

# 设 置 kafka sink 

agentl.sinks.kl.channel = cl 

agent1.sinks.kl.type = org.apache.flume.sink.kafka.KafkaSink 
agent1.sinks.kl.kafka.topic = kafka sink test1 
agent1.sinks.kl.kafka.bootstrap.servVers = 192.168.1.3:9092,192.168.1.4:9092 
agent1.sinks.kl.kafka.flumeBatchSize = 20 
agent1.sinks.kl.kafka.producer.acks = 1 
agent1.sinks.kl.kafka.linger.ms = 0 

# 设 置 HDFS sink 

agent1.sinks.k2.channel = c2 

agent1.sinks.k2.type = hdfs 
agent1.sinks.k2.hdfs.pPath = /flume temp/%Y%m%d/%H 
agent1.sinks.k2.round = true 
agentl.sinks.k2.roundValue = 0 
agent1.sinks.k2.roundUnit = minute 

# 设 置 file sink 

agent1.sinks.k3.channel = cl 

agent1.sinks.k3.type = file roll 
agent1.sinks.k3.sink.directory = /flume log 
agent1.sinks.k3.sink.rollInterval = 3600 











说 明 : avro source 接 收 消息 采用 复制 选择 器 同时 写 入 三 个 Channel，Channel c1、c2 是 必 选 的 两 个 channel， 当 有 消息 写 入 Channel c1 和 c2 失 败 时 (比如 Sink 没 有 及 时 消费 Channel 中 的 消息 导致 
Channel 中 消息 严重 堆积 ， 最 终 存储 空间 写 满 ， 无 法 接收 更 多 的 消息 写 入 ) 会 向 Source 抛 出 异常 ，Channel c3 为 可 选 Channel， 当 写 入 c3 发 生 异 常 时 ，c3 不 会 向 Source 抛 出 异常 。Sink k1 从 Channel c1 获 
取消 息 写 入 到 Kafka 消 息 队列 ，Sink k2 从 Channel c2 获 取消 息 写 入 到 HDFS，Sink k3 从 Channel c3 获 取消 息 写 入 到 本 地 文件 系统 。 
































(2) 复 用 Channel 选 择 器 (Multiplexing Channel Selector) 






































复 用 Channel 选 择 器 需要 和 拦截 器 配合 使 用 ， 根 据 Event 的 头 信息 中 不 同 键 值 数据 来 判断 Event 应 该 被 写 入 哪个 Channel 中 。 从 源码 MultiplexingChannelSelector 类 中 可 以 很 清晰 地 了 解 复 用 Channel 
选择 器 具体 执行 流程 ， 重 要 的 三 个 方法 configure、getRequiredChannels、getOptionalChannels，configure 方 法 用 于 初始 化 上 下 文 ， 从 配置 文件 中 读 取 配 置信 息 ，getRequiredChannels 接 收 参 数 为 
Event， 返 回 值 为 Event 应 该 写 入 的 Channel 列 表 ， 如 果 在 配置 文件 中 没有 设置 header 信 息 或 者 通过 headerValue 获 取 到 的 channel 列 表 为 空 都 会 返回 默认 配置 的 Channel 列 表 。 




































































回 














public List<Channel> getRequiredChannels{Event event) { 
string headerValue = event .getHeaders () .get (headerName); 
if (headerValue 一 null || headerValue.trim().length() 一 0) { 
return defaultChannels; 
¥E 
List<Channel> channels = channelMpping .get (headerValue); 
//This header value does not point to anything 
//Return default channel (s) here. 
if (channels == null) { 
channels = defaultChannels; 
} 


return channels; 





getOptionalChannels 方 法 接收 参数 为 Event， 返 回 值 为 可 选 Channel 列 表 ， 通 过 头 信息 中 的 headerName 的 值 查找 配置 文件 中 定义 的 可 选 Channel， 如 果 能 够 匹配 到 可 选 的 Channel 返 回 可 选 Channel 
列表 ， 如 果 没有 配置 的 可 选 Channe| 则 返回 一 个 空 列 表 ，Event 不 会 写 入 到 任何 可 选 Channel。 














回 




















public List<Channel> getOptionalChannels (Event event) { 
string hdr = event.getHeaders () .get (headerName); 
List<Channel> channels = optionalChannels.get (hdr); 
if (channels == null) { 
Channels = EMPTY LIST; 


return channels; 

















多 路 复 用 Channel 中 可 以 配置 三 种 级 别 的 Channel， 分 别 是 必 选 Channle、 可 选 Channel、 默 认 Channel， 通 过 头 信息 中 的 header 值 匹配 是 否 符 合 条 件 写 入 到 必 选 Channel 和 可 选 Channel， 如 果 在 配 
置 文 件 中 没有 设置 header 选 项 或 者 不 符合 写 入 必 选 Channel 的 条 件 都 会 写 入 到 默认 Channel。 同 一 个 Event 只 会 同时 写 入 必 选 Channel 和 可 选 Channe| 或 者 同时 写 入 可 选 Channel 和 默认 Channel， 不 会 同时 
写 入 必 选 Channel 和 默认 Channel。 











关键 参数 说 明 : 


“selector.type: Channel 选 择 器 类 型 为 multiplexing。 
“selector.header: 设置 头 信息 中 用 于 检测 的 headerName。 
“selector.default: 默认 写 入 的 Channe1 列 表 。 


selector.mapping.*: headerName 对 应 的 不 同 值 映射 不 同 的 Channe1 列 表 。 


定义 规则 : 





agentl.sources = rl 

agentl.channels = cl c2 c3 c4 c5 
agent1.sources.rl.selector.type = multiplexing 
agent1.sources.rl.selector.header = logtype 
agent1.sources.rl1.selector.mapping.ad = cl 
agent1.sources .rl.selector.mapping.search = c2 
agent1.sources.rl.selector.optional.ad=c3 
agent1.sources.rl.selector.optional.ad=c4 
agent1 .sources.rl1.selector.default = c5 





说 明 : 


agent1 的 channel 列 表 有 c1、c2、c3、c4、c5，Channel 选 择 器 采用 复 用 (multiplexing) 选择 器 ， 检 测 头 信息 中 的 logtype 键 值 ， 键 值 为 “ad” 上 映射 到 c1， 键 值 为 “search” 了 映射 到 c2， 如 果 Event 
写 入 到 c1 或 者 c2 出 现 异常 则 向 Source 抛 出 异常 。 键 值 为 “ad” 了 映射 到 c3， 键 值 为 “search” 映 射 到 c4，c3、c4 为 可 选 Channel， 如 果 Event 写 入 到 c3 或 者 c4 出 现 异 常 不 会 向 Source 抛 出 异常 。 如 果 在 Event 
中 没有 logtype 键 或 者 logtype 键 值 没有 映射 的 Channnel 列 表 ， 则 Event 写 入 到 默认 的 c5 中 。 


6.2.2 ”负载 均衡 、 故 障 转移 实践 














Flume 为 了 进一步 提高 整个 系统 的 容错 能 力 和 稳定 性 ， 提 供 了 负载 均衡 和 故障 转移 功能 ， 这 两 个 功能 配置 简单 ， 使 用 方便 ， 只 需要 简单 的 配置 就 可 以 轻松 实现 负载 均衡 和 故障 转移 。 实 现 这 两 个 功能 
先 需 要 设置 Sink 组 ， 同 一 个 Sink 组 内 有 多 个 子 Sink， 不 同 的 Sink 之 间 可 以 配置 成 负载 均衡 或 者 故障 转移 . 




















1. 负 载 均衡 


关键 参数 说 明 : 


“sinks: sink 组 内 的 子 sink， 多 个 子 sink 之 间 用 空格 隔 开 。 





“processor.type: 设置 负载 均衡 类 型 failover。 


会 将 失败 的 Sink 放 进 黑 名 单 中 ， 为 黑 


rocessor .backoff: 在 负载 均衡 的 情况 下 需要 将 值 设置 为 true， 如 果 在 系统 运行 过 程 中 执行 的 Sink 失 败 ， 
黑 名 单 驻 留 时 间 将 以 指数 倍增 加 ， 


时 间 超 时 ， 黑 名 单 中 的 sink 仍 然 无 法 提供 服务 ， 为 了 防止 长 时 间 等 待 黑 名 单 中 的 Sink 造 成 阻塞 影响 系统 正常 运行 ， 
:Processor.selector.maxTimeOut: 失败 sink 在 黑 名 单 中 的 驻 留 时 间 ， 默 认 值 为 30000ms。 
processor.selector: 负载 均衡 选择 算法 ， 可 以 使 用 轮 询 vround_robin”、 随 机 “random” 或 者 继承 AbstractSinkSelector 类 的 自 定义 负载 均 


定义 规则 : 


名 单 中 的 Sink 设 置 驻 留 时 间 ， 黑 名 单 中 的 Sink 将 不 会 再 继续 接收 数据 。 当 驻 留 
默认 值 false。 


9 衡 实现 类 。 





agent1.sinkgroups = gl 
agent1.sinkgroups.g1.sinks = kl k2 

agentl1 .sinkgroups.g1 .processor.type = load balance 
agent1 .sinkgroups.g1.processor.backoff = true 
agentl1 .sinkgroups.g1 .processor.selector = random 





2. 故 障 转移 


关键 参数 说 明 : 

“sinks: sink 组 内 的 子 sink， 多 个 子 sink 之 间 用 空格 隔 开 。 
-Processor.type: 设置 故障 转移 类 型 failover”。 
-Processor.priority.<sinkName>: 指定 Sink 组 内 各 子 Sink 的 优先 级 别 ， 优 先 级 从 高 到 低 ， 数 值 越 大 优先 级 越 高 。 


-Processor.maxpenalty: 等 待 失 败 的 Sink 恢 复 的 最 长 时 间 ， 默 认 值 30000 毫 秒 。 





Sink 组 是 一 个 包含 多 个 Sink 的 列表 ， 不 同 Sink 设 置 不 同 的 优先 级 ， 优 先 级 从 高 到 低 ， 数 值 越 大 优先 级 越 高 。 


定义 规则 : 





agent1.sinkgroups = gl 
agent1.sinkgroups.g1.sinks = kl k2 
agent1.sinkgroups.g1.Processor.type = failover 
agent1.sinkgroups.g1.Processor.Priority.kl = 5 
agentl1.sinkgroups.g1 .processor.priority.k2 = 10 
agent1.sinkgroups.g1.pProcessor.maxpenalty = 5000 





6.2.3 ”设计 与 实践 


























日 志 收集 作为 整个 业务 系统 的 数据 源头 具有 非常 重 
特性 非常 适合 重要 业务 系统 的 数据 采集 工作 ，Flume 通 过 简单 的 配置 文件 可 以 构建 一 个 复杂 而 强大 的 日 志 收 集 系 统 ， 虽 然 Flume 
自 有 组 合 以 实现 不 同 场景 的 日 志 收 集 架构 ， 下 面 分 别 介绍 单 层 收集 架构 和 多 层 收集 架构 两 种 方式 。 
























































1. 单 层 日 志 收集 架构 


























单 层 日 志 收 集 架 构 简单 易 用 ， 只 需要 在 各 个 日 志 生 成 节点 部 署 单一 Agent，Agent 将 采集 到 的 数据 发 送 到 指定 的 外 









































重要 的 作用 ， 日 志 收 集 系统 必须 保证 能 够 灵活 、 持 续 、 高 效 、 稳 定 地 提供 数据 采集 服务 。Flume 的 模块 化 、 插 件 式 、 易 扩展 、 自 动 负载 均衡 、 高 容错 等 
0 此 易 用 和 强大 ， 但 也 需要 优秀 的 数据 收集 架构 设计 ，Flume 人 允许 各 个 组 件 





层 存储 ， 比 如 HDFS、Kafka、HBase 等 ， 这 种 日 志 采 集 架构 设计 存在 一 些 问 题 : 








HDFs 采 用 分 块 多 备份 的 存储 方式 ， 每 个 块 文件 有 默认 的 大 小 ， 如 果 小 























1) 采集 的 数据 源 种 类 比较 多 、 采 集 服务 器 节点 多 ， 如 果 将 这 些 不 同 服务 器 不 同 种 类 的 数据 发 送 到 HDFS 存 储 会 产生 很 多 小 文件 ， 




















文件 过 多 会 在 NameNode 中 分 配 更 多 的 内 存 空间 来 存储 文件 的 元 数据 信息 ， 给 NameNode 带 来 不 必要 的 内 存 开销 。 小 文件 过 多 在 使 











资源 ， 降 低 集 群 有 效 使 用 率 。 








2) 外 部 存储 升级 维护 或 者 出 现 系统 故障 需要 对 所 有 的 日 志 采 集 层 Agent 进 行 处 理 ， 消 耗 更 多 的 人 力 成 本 ， 降 低 系统 的 稳定 性 。 
级 到 1.7 版 本 才能 够 对 0.9 版 本 的 Kafka 进 行 很 好 的 支持 。 


























3) 系统 安全 问题 ， 单 层 日 志 收 集 的 架构 以 及 所 有 外 部 存储 的 IP、 端 口号 等 系统 信息 都 会 暴露 在 采集 端 ， 增 大 了 被 有 








4) 采集 数据 源 多 种 多 样 ， 不 能 够 清晰 准确 地 划分 层次 ， 对 于 数据 源 的 日 常 管理 就 会 非常 混乱 ， 很 容易 引起 错误 的 人 工 操作 。 





MapReduce 处 理 的 时 候 也 会 产生 更 多 的 Map 任 务 ， 消 耗 更 多 的 集群 
































比如 Kafka 从 0.8 版 本 升级 到 0.9 版 本 ， 如 果 Flume 使 用 的 是 1.6 版 本 需要 升 


黑客 攻击 的 可 能 ， 大 大 降低 了 系统 安全 性 。 





图 6-2 单 层 日 志 收 集 架构 


如 果 是 单一 业务 ， 数 据 量 比较 小 集群 规模 也 比较 小 ， 可 以 选择 单一 采集 架构 ， 但 是 单一 采集 架构 的 采集 方式 存在 上 述 的 诸多 问题 ， 需 要 进一步 优化 采集 架构 。 


2. 分 层 日 志 收集 架构 


分 层 日 志 收集 架构 将 日 志 采 集 、 日 志 汇聚 分 发 分 开 部 署 ， 将 不 同 种 类 的 数据 源 分 类 划分 层次 ， 第 一 层 日 志 采 集 层 ， 负 责 采 集 各 业务 线 不 同 的 日 志 数 据 ， 每 台 日 志 服 务 器 部 署 一 个 或 者 多 个 Agent。 在 
Agent 内 部 根据 业务 场景 选择 负载 均衡 、 故 障 转移 保证 系统 稳定 高 效 地 运行 。 第 二 层 日 志 汇聚 层 ， 负 责 接收 日 志 采 集 层 实时 发 送 过 来 的 日 志 数 据 ， 根 据 业务 类 型 分 类 ， 对 同一 类 型 的 日 志 数 据 统一 处 理 。 如 
果 外 部 存储 对 接 的 是 HDFS， 可 以 通过 设置 批量 写 入 HDFS 数 据 量 和 滚动 生成 的 文件 大 小 来 控制 文件 数 ， 避 免 小 文件 的 大 量 产生 。 


采用 分 层 日 志 收 集 架构 的 优点 : 

1) 各 种 类 型 的 日 志 数 据 分 层 整合 处 理 架 构 清晰 ， 运 维 高 效 ， 降 低 人 工 误 操作 风险 。 

2) 避免 过 多 小 文件 产生 ， 提 高 系统 稳定 性 和 处 理 能 力 。 

3) 不 会 对 外 部 暴露 关键 系统 的 系统 信息 ， 降 低 被 黑客 攻击 的 风险 ， 大 大 提高 系统 安全 性 。 
4) 各 关联 系统 易 升级 。 

采用 分 层 日 志 收 集 架构 的 缺点 : 


相对 于 单一 日 志 收集 架构 部 署 相 对 复杂 ， 需 要 占用 的 机 器 资源 更 多 ， 但 是 相对 于 大 型 的 业务 系统 主要 关心 的 应 该 是 系统 的 稳定 性 、 容 错 能 力 、 扩 展 性 、 安 全 性 等 关键 问题 。 


志 汇 聚 层 
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图 6-3 ”分 层 日 志 收 集 架构 


3. 应 用 场景 实践 





以 Flume1.7 版 本 为 例 ， 收 集 广告 日 志 ， 广 告 日 志文 件 采 用 滚动 生成 日 志文 件 的 方式 ， 一 分 钟 生 成 一 个 日 志文 件 。 日 志 采 集 层 需要 实时 监控 每 一 个 新 生成 的 日 志文 件 ， 将 数据 发 送 到 日 志 汇聚 层 ， 日 志 采 
集 层 的 每 一 个 Agent 采 用 故障 切换 的 方式 配置 两 个 或 多 个 Sink， 日 志 汇聚 层 采 用 多 Agent 接 收 日 志 采 集 层 的 数据 ， 然 后 分 别 发 送 到 HDFS 和 Kafka，HDFS 的 广告 数据 用 于 备份 和 离线 计算 ，Kafka 的 数据 用 于 
实时 计算 。 


日 志 采 集 层 配置 : 





# 广告 日 志 采 集 

ad_agent .sources = rl 

ad agent.channels = cl 

ad agent.sinks = kl k2 

# set taildir source 

ad _ agent .sources .+1.type = TAILDIR 

# 存储 agent 读 取 日 志文 件 位 置信 息 

ad _agent.sources.r1.pPositionFile = /flume-1.7.0/position/taildir sinkprocessor _ Position.json 
ad agent .sources.r1l.filegroups = fl 

# 惠 控 日 志 

ad_agent.sources.r1.filegroups.fl =/ad log/* .1og 

ad_ agent.sources.rl.channels = cl 加 

# Set file channel 

ad_agent.channels.cl.type = file 

ad_agent.channels.cl.checkpointDir = /flume/checkpoint 

ad agent .channels.cl.dataDirs = /flume/data 

# set sink groups 

ad agent.sinkgroups = gl 

ad _ agent .sinkgroups.g1.sinks = kl k2 

# 政 际 转 移 设置 

ad_agent.sinkgroups.g1.Processor.type = failover 

ad agent.sinkgroups.g1.processor.priority.kl = 5 

ad_agent .sinkgroups.g1.processor.priority.k2 = 10 
ad _ agent .sinkgroups.g1.processor.maxpenalty = 5000 
# set avro sink 

ad agent.sinks.kl.channel = cl 

ad_agent .sinks.kl.type = avro 

ad agent.sinks.kl1.hostname = 192.168.1.1 
ad agent.sinks.kl1.port = 9876 

ad agent.sinks.k2.channel = cl 

ad_agent .sinks.k2.type = avro 

ad agent.sinks.k2.hostname = 192.168.1.2 
ad agent.sinks.k2.port = 9877 





日 志 汇聚 层 配 置 : 





# 广告 日 志 汇聚 层 

ad_collector agent.sources = rl 

ad_collector agent.channels = cl 

ad collector agent.sinks = kl 

# set avro source 

ad_collector agent.sources.rl1.type = avro 

ad_collector agent.sources.rl.bind = 192.168.1.1 

ad_collector agent.sources.rl.port = 9876 

ad_collector agent.sources.rl.channels = cl 

# set interceptor 

ad_collector agent.sources.rl1.interceptors = il 

ad_collector agent.sources.r1.interceptors.il.type = timestamp 

# set kafka channel 

ad collector agent.channels.cl1.type = org.apache.flume.channel.kafka.KafkaChannel 
# kafka broker 地 址 

ad collector agent .channels.cl.kafka.bootstrap.servVers = 192.168.1.3:9092, 
192.168.1.4:9093,192.168.1.5:9094 

# 主题 名 称 





ad_collector_agent.channels.cl.kafka.topic = flume channel : 
ad collector agent.channels.cl.consumer.group.id = flume-c 
# Set kafka Sink 

ad collector agent.sinks.kafkasink.channel = cl 


ad collector agent.sinks.kafkasink.type = org.apache.flume. 


ad_collector agent.sinks.kafkasink.kafka.topic = ad topic 
ad collector agent.sinks.kafkasink.kafka.bootstrap.Servers 
192.168.1.4:9093,192.168.1.5:9094 

ad collector agent.sinks.kafkasink.kafka.flumeBatchSize = 
ad collector agent.sinks.kafkasink.kafka.producer.acks = 1 
# set hdfs sink 

ad collector agent.sinks.k2.channel = cl 

ad collector agent.sinks.k2.type = hdfs 

# hafs 路 径 ， 按 年 月 日 /小 时 分 区 

ad collector agent.sinks.k2.hdfs.path = /data/ad/%Y%m%d/%H 
# 一 分 钟 深 动 生成 一 个 文件 

ad_collector agent.sinks.k2.round = true 

ad collector agent.sinks.k2.roundValue = 0 

ad collector agent.sinks.k2.roundUnit = minute 

# 文件 名 前 级 

ad collector agent.sinks.k2.hdfs.filePrefix = %Y%m%d%HSM 
# 文件 名 后 红 

# ad collector agent.sinks.k2.hdfs.fileSuffix = log 


启动 : 




















ad topic 
onsumer 
Sink.kafka.KafkaSink 
= 192.168.1.3:9092, 


20 














开启 mx 监控 ,在 conf 目 录 下 打开 flume-env.sh 文 件 添加 如 下 环境 变量 ， 开 启 mx 用 于 监控 系统 采集 监控 数据 : 


export JAVA OPTS="“-Dcom.sun.management .jmxremote 
-Dcom. sun.management .jmxremote.port=544 
-Dcom. sun.management .jmxremote.authenti 
-Dcom. sun.management .jmxremote.ssl=fals' 


5 
Cate=false 
er 




















分 别 启动 日 志 采 集 层 和 日 志 汇聚 层 各 Agent， 启 动 命令 如 下 : 





bin/flume-ng agent -c conf -f conf/ad agent.Properties -n 
bin/flume-ng agent -c conf -f conf/ad collector agent .prop: 


ad agent 
erties -n ad agent 





6.3 水 结 


















































本 章 主要 介绍 分 布 式 日 志 收 集 系统 Flume 的 原理 及 常用 组 件 的 使 








方法 。 本 章 使 用 目前 最 新 版 本 Flume1.7， 该 版 本 在 原 有 的 1.6 版 本 之 上 做 了 很 多 优化 升级 ， 新 增加 Taildir Source、Kafka Channel, 








并 对 Kafka Sink 做 了 较 大 的 升级 优化 。 通 过 理论 结合 实践 的 方式 介绍 F 


第 7 章 ”分布 式 消息 队列 


7.1 ”Kafka 介绍 


7.1.1 基本 架构 


Kafka 是 由 Linkedln 开 源 的 分 布 式 消息 队列 ， 能 够 轻松 实现 高 吞吐 、 








ume 在 生产 环境 中 的 设计 方式 。 








可 扩展 、 高 可 用 ， 并 且 部 署 简单 快速 、 开 发 接口 丰富 。 各 大 互联 网 公司 已 经 在 生产 环境 中 广泛 使 用 ， 目 前 已 经 有 很 多 分 布 式 处 理 系 











统 支持 使 用 kafka， 比 如 Spark、Strom、Druid、Flume 等 。Kafka 分 布 式 消息 队列 的 作用 : 


- 解 耦 : 将 消息 生产 阶段 和 处 理 阶 段 拆 分 开 ， 两 个 阶段 互相 独立 各 自 实现 自己 的 处 理 罗 辑 ， 通 过 Kafka 提 供 的 消息 写 入 和 消费 接口 实现 对 消息 的 连接 处 理 。 降 低 开 发 复杂 度 ， 提 高 系统 稳定 性 。 


高 吞吐 率 : Kafka 通 过 顺序 读 写 磁盘 提供 可 以 和 内 存 随机 读 写 相 匹敌 的 读 写 速度 ， 灵 活 的 客户 端 APT 设 计 ， 利 用 Linux 操 作 系统 提供 的 * 零 拷贝 “特性 减少 消息 网 络 传输 时 间 ， 提 供 端 到 端的 消息 压缩 传输 ， 对 同一 主题 下 的 消息 采用 
分 区 存储 ，Kafka 通 过 诸多 良好 的 特性 利用 廉价 的 机 器 就 可 以 轻松 实现 高 吞吐 率 。 


高 容错 、 高 可 用 : Kafka 人 允许 用 户 对 分 区 配置 多 副本 ，Kafka 将 副本 均匀 地 分 配 到 各 个 broker 存 储 ， 保 证 同一 个 分 区 的 副本 不 会 在 同一 台 机 器 上 存储 〈 集 群 模式 下 ) ， 多 副本 之 间 采 用 Leader-Follower 机 制 同步 消息 ， 只 有 

















Leader 对 外 提供 读 写 服务 ， 当 Leadet 意 外 失败 、Broker 进 程 关闭 、 服 务 宕 








机 等 情况 导致 数据 不 可 用 时 ，kafka 会 从 Follower 中 选择 一 个 Leader 继 续 提 供 读 写 服 务 。 


:可 扩展 : 理论 上 Kafka 的 性 能 随 着 Broker 的 增多 而 增加 ， 增 加 一 个 Broker 只 需要 为 新 增加 的 Broker 设 置 一 个 唯一 编号 ， 编 写 好 配置 文件 后 ，Kafka 通 过 Zookeeper 就 能 发 现 新 的 Broker。 


峰值 处 理 : 例如 秒杀 系 
后 台 系 统 处 理 不 及 时 ， 请 求 
处 理 能 力 提供 数据 服务 ， 进 而 
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统 月 溃 。 











We 














kafka 有 如 此 多 的 优点 并 且 被 广泛 认可 和 使 用 完全 得 益 于 它 优秀 的 设计 架构 以 及 丰富 的 开发 接口 。 下 








en dT 推荐 系统 等 都 需要 消息 队列 的 介入 ， 这 类 系统 在 某 个 时 间 点 数据 会 爆发 式 增长 ， 后 台 处 理 系统 不 能 够 及 时 处 理 峰 值 请 求 ， 如 果 没有 消息 队列 的 接 入 就 会 造成 


Kakfa 的 接 入 能 够 合 数 据 进 行 宽 余 存储 ， 并 保证 消息 涉 序 读 写 ， 相 当 于 给 系统 接 入 了 一 个 大 的 缓冲 区 ， 既 能 接收 持续 其 增 的 请 求 ， 又 能 根据 语 台 条 统 的 




















将 详细 介绍 kafka 的 设计 架构 ， 如 图 7-1 所 示 。 
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副本 rl 同步 分 区 p1 的 数据 
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图 7-1 Kafka 设计 架构 示意 
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consumerl 


r0 


consumerl 从 分 区 


pl1 拉 取消 息 














Broker: 启动 kafka 的 一 个 实例 就 是 一 个 broker， 默 认 端 口 9092。 一 个 kafka 集 群 可 以 启动 多 个 broker 同 时 对 外 提供 服务 ，broker 不 保存 任何 producer 和 consumer 相 关 的 信息 。 


Topic: 主题 ，kafka 中 同一 种 类 型 数据 集 的 名 称 ， 相 当 了 








个 topic， 如 果 设 置 一 个 topic 有 多 个 partition 和 多 个 replication， 在 物理 上 同一 个 topic 下 的 数据 集会 被 分 成 多 份 存 储 到 不 同 的 物理 机 上 。 








Partition: 分 区 ， 一 个 topic 可 以 设置 多 个 分 区 ， 相 当 于 把 一 个 数据 集 分 成 多 份 分 别 放 到 不 同 的 分 























不 设置 默认 为 1。 理 论 上 partition 数 越 多 ， 系 统 的 整体 吞吐 率 就 越 高 ， 但 是 在 实际 应 用 中 并 不 是 partition 越 多 越 好 ， 

















反而 过 多 的 partition 在 broker 宕 机 需要 重 


好 致 partition 暂 时 无 法 提供 服务 ， 造 成 写 入 消息 失败 。 分 区 命名 规则 是 topicname-index (比如 : testtopic-1、testtopic-2 等 ) 。 











Segment: 段 文件 ，kafka 中 最 小 数据 存储 和 














数据 库 中 的 表 ，productor 将 同一 类 型 的 数据 写 入 同一 个 topic 下 ，consumer 从 同一 个 topic 消 费 同 一 类 型 的 数据 。 逻 辑 上 同一 个 数据 集 只 有 一 


区 中 存储 。 一 个 topic 可 以 有 一 个 或 者 多 个 分 区 ， 在 创建 topic 的 时 候 可 以 设置 topic 的 partition 数 ， 如 果 
新 对 partition 选 主 ， 在 这 个 过 程 中 耗 时 太 久 会 


位 ，kafka 可 以 存储 多 个 topic， 各 个 topic 之 间隔 离 没有 影响 ， 一 个 topic 包 含 一 个 或 者 多 个 partition， 每 个 partition 在 物理 结构 上 是 一 个 文件 夹 ， 文 件 夹 


名 称 以 topic 名 称 加 partition 索 引 的 方式 命名 ， 一 个 partition 包 含 多 个 segment， 每 个 segment 以 message 在 partition 中 的 起 始 偏 移 量 命名 以 log 结 尾 的 文件 ，productor 向 topic 中 发 布 消息 会 被 顺序 写 入 对 
应 的 segment 文 件 中 。Kafka 为 了 提高 写 入 和 查询 速度 ， 在 partition 文 件 夹 下 每 一 个 segment log 文 件 都 有 一 个 同名 的 索引 文件 ， 索 引文 件 以 index 结 尾 。 




















Offset: 消息 在 分 区 中 的 偏 移 量 ， 用 来 在 分 区 中 唯一 地 标识 这 个 消息 。 











Replication: 副本 ,一 个 partition 可 以 设置 一 个 或 者 多 个 副本 ， 副 本 














Producer: 消息 生产 者 ， 负 责 向 kafka 中 发 布 消息 。 











要 保证 系统 能 够 持续 不 丢失 地 对 外 提供 服务 。 在 创建 topic 的 时 候 可 以 设置 partition 的 replication 数 。 


Consumer Group: 消费 者 所 属 组 ， 一 个 Consumer Group 可 以 包含 一 个 或 者 多 个 consumer， 当 一 个 topic 被 一 个 Consumer Group 消费 的 时 候 ，Consumer Group 内 只 能 有 一 个 consumer 消 费 同一 
条 消息 ， 不 会 出 现 同一 个 Consumer Group 中 多 个 consumer 同 时 消费 一 条 消息 造成 一 个 消息 被 一 个 Consumer Group 消费 多 次 的 情况 。 








Consumer: 消息 消费 者 ，consumer 从 kafka 指 定 的 主题 中 拉 取 消息 ， 如 果 一 个 Topic 有 多 个 分 区 ，Kafka 只 能 保证 一 个 分 区 内 消息 的 有 序 性 ， 在 不 同 的 分 区 之 间 无 法 保证 。 


Zookeeper: Zookeeper 在 kafka 集 群 中 


7.1.2， 高 吞吐 的 实现 


Kafka 通 过 顺序 读 写 磁盘 提供 可 以 和 内 存 随机 读 写 相 匹敌 的 读 写 速 度 ， 使 








要 用 于 协调 管理 ，Kafka 将 元 数 






































下 的 消息 采用 多 分 区 存储 ，Kafka 通 过 诸多 良好 的 特性 利 






































1. 磁 盘存 储 顺 序 读 写 











居 信 息 保 存在 Zookeeper 中 ， 通 过 Zookeeper 的 协调 管理 来 实现 整个 Kafka 集 群 的 动态 扩 | 
Productor 通 过 Zookeeper 感 知 Partition 的 Leader、Consumer 消 费 的 负载 均衡 并 可 以 保存 Consumer 消 费 的 状态 信息 ，Kafka0.9 版 本 之 前 Consumer 消 费 消息 的 偏 移 量 记录 在 Zookeeper 中 ，0.9 版 本 之 后 
则 由 Kafka 自 己 维护 Consumer 消 费 消息 的 偏 移 量 。 





展 、 各 个 Broker 负 载 均衡 、 


“sendfile” 技 术 实现 “ 零 拷 贝 ”减少 消息 网 络 传输 时 间 ， 通 过 对 客户 端的 优化 设计 提高 消息 发 布 和 订阅 的 性 能 ， 对 同一 主题 


廉价 的 机 器 就 可 以 轻松 地 实现 高 吞吐 率 。 








磁盘 存储 的 最 大 优势 是 成 本 低 ， 存 储 能 力 强 ， 持 久 化 时 间 长 ， 不 同 的 消费 者 可 以 对 同一 个 消息 多 次 处 理 ， 但 是 磁盘 的 读 写 速度 被 人 们 普遍 认为 比 内 存 的 读 写 速度 差 很 多 ， 经 过 测试 ， 磁 盘 顺 序 读 写 的 性 





能 比 内 存 随机 读 写 的 性 能 还 要 高 ， 但 磁盘 随机 读 写 的 性 能 就 很 


， 都 是 在 磁盘 上 进行 读 写 操作 ， 为 什么 磁盘 顺序 读 写 的 性 能 就 比 磁盘 随机 读 写 的 性 能 


























高 很 多 ? 














原 


是 传统 的 机 械 硬盘 在 随机 读 写 过 程 





中 磁头 和 探 针 需要 快速 地 转动 频繁 寻 道 ， 


2.PageCache 


Page Cache (页 缓存 ) 是 操作 系统 分 配 的 一 块 闲置 内 存 区 域 ， 当 有 其 他 应 用 程序 申请 内 存 时 ， 操 作 系统 会 释放 一 部 分 页 缓存 来 满足 应 有 




















寻 道 过 程 耗费 了 大 量 时 间 ， 严 重 影响 了 硬盘 的 读 写 性 能 。 























首先 在 页 缓存 中 查找 是 否 有 应 用 程序 要 读 取 的 数据 ， 如 果 没 有 (发 现 有 缺 页 ) 则 将 目标 文件 数据 先 加 载 到 页 缓存 中 ， 然 后 从 页 缓存 中 将 数据 发 送 给 应 用 程序 。 
区 并 标记 为 脏 页 进行 管理 ， 操 作 系统 周期 性 地 将 脏 页 数据 写 入 到 磁盘 文件 中 。 























系统 先 将 应 用 程序 发 送 的 数据 缓存 到 页 缓冲 









































程序 的 内 存 需 求 。 




















当 有 应 用 程序 需要 读 取 文件 数据 时 ， 操 作 系 统 
































当 应 用 程序 需要 将 数据 写 入 到 文件 中 时 ， 操 作 








Kafka 很 好 地 利用 了 页 缓存 的 高 速 读 写 性 能 ， 当 Producer 向 kafka 发 布 消息 时 ，Broker 接 收 到 消息 先 将 消息 写 入 页 缓存 ， 并 且 标记 为 脏 页 ， 操 作 系 统 周期 性 地 将 脏 页 数据 写 入 到 分 区 内 的 log 文 件 中 ， 当 




















Consumer 有 拉 取 操作 时 ， 先 从 页 缓存 中 查 





线 ， 如 果 在 页 缓存 中 命中 需 ， 


拉 取 的 消息 则 直接 将 消息 拉 取 走 ， 





如 果 发 生 缺 页 的 情况 则 从 log 文 件 中 将 数据 加 载 到 页 缓存 返回 给 Consumer。 通 过 页 缓存 的 使 用 ， 


减少 了 数据 传输 次 数 和 网 络 开销 ， 如 果 Produce 写 入 Kafka 和 Consumer 从 Kafka 中 拉 取 的 速度 达到 一 个 平衡 点 ， 完 全 可 以 在 页 缓存 中 达到 交换 数据 的 目的 。 








Kakfa 使 用 Scala 开 发 完成 ，Scala 依 赖 于 JVM，JVM 自 动 完成 垃圾 回收 ， 当 执行 一 次 Full GC 的 时 候 需要 “Stop The Wrold”， 
在 Kafka 中 消息 全 部 缓存 到 JVM ， 如 果 对 象 比较 大 会 频繁 引起 Full GC， 严 重 影响 Kafka 性 能 。Kafka 的 
外 宕 机 ，JVM 线 程 内 部 的 缓存 都 会 被 清除 ， 而 操作 系统 管理 的 页 缓存 不 会 受到 任何 影响 ， 可 以 继续 使 








3. 零 拷贝 


Kafka 的 设计 通过 前 边 介绍 的 磁盘 存储 | 














设计 中 采 


























页 序 读 写 、 巧 妙 利 








化 性 能 还 采用 了 Sendfile 技 术 ， 通 过 “ 零 拷 贝 ”发 送 数据 ， 实 现 高 效 数据 传输 。 





























首先 介绍 没有 使 用 “ 零 拷 贝 ”技术 的 应 用 程序 之 间 的 数据 传输 过 程 : 











第 一 步 ， 操 作 系统 将 数据 从 磁盘 读 入 内 核 空间 中 的 页 缓存 ; 











第 二 步 ， 应 用 程序 将 数据 从 内 核 空间 读 入 用 户 空间 缓冲 

















第 三 步 ， 应 用 程序 将 数据 写 回 到 内 核 空间 放 入 的 

















9 步 ， 操 作 系 统 将 数据 从 Socket 缓 冲 区 复制 型 




















磁盘 





整个 数据 传输 过 程 中 ， 同 一 份 数据 在 内 核 与 应 
到 NIC 缓 冲 区 ， 大 大 简化 了 数据 传输 流程 ， 


磁盘 

















程序 之 间 多 次 拷贝 ， 传 输 效 率 低下 。 应 
是 高 数据 传输 效率 ， 为 Kafka 高 吞吐 的 实现 提供 了 高 效 的 数据 传输 保障 。 优 化 之 后 的 数据 传输 流程 如 图 7-3 所 示 。 





区 


Sock 缓 冲 区 中 ; 


NIC 缓 冲 区 ， 并 通过 网 络 发 送出 去 。 





操作 系统 Page Cache 取 得 了 较 好 性 能 ， 














hi 


应 用 程序 2 





图 7-2 未 使 用 “SendFile” 技 术 的 应 用 程序 之 间 的 数据 传输 过 程 




















内 核 组 


“SendFile” 


















































除了 GC 所 需 线程 之 外 ， 其 他 线程 都 要 停止 工作 ， 直 到 Full GC 结束 。 如 果 
页 缓存 的 方式 缓存 消息 ， 避 免 在 JVM 内 部 缓存 数据 带 来 的 负面 影响 。 如 果 Kafka 重 启 或 者 意 
， 避 免 了 消息 丢失 的 风险 。 











但 是 Kafka 的 工程 师 们 没有 停 下 继续 对 Kafka 的 架构 和 实现 方式 进行 优化 的 脚步 。Kafka 为 了 进一步 优 


应 用 程序 1 


技术 之 后 取消 了 内 核 与 应 用 程序 缓存 之 前 的 传输 ， 数 据 从 磁盘 读 取出 来 后 直接 从 内 核 缓冲 区 发 送 























冲 区 











4 多 分 区 


Kafka 将 一 个 主题 数据 分 成 多 个 分 


图 7-3 使 用 “SendFile” 技 术 后 应 用 程序 之 间 的 数据 传输 过 程 








区 存储 ， 每 一 个 分 








区 对 应 Consumer 的 一 个 处 理 线程 ， 理 


论 上 讲 ， 分 





区 越 多 Consumer 的 并 发 处 理 能 力 越 强 ， 但 是 随 着 分 








区 的 不 断 增长 ，Consumer 启 动 的 线程 数 也 会 










































































越 来 越 多 ， 线 程 的 启动 需要 占用 一 部 分 资源 ， 过 多 的 分 区 可 能 不 会 提高 性 能 ， 反 而 会 增加 系统 负担 降低 性 能 。 分 区 数量 的 选择 要 根据 具体 使 用 场景 ， 需 要 经 过 多 次 测试 ， 设 
能 。 
5. 客 户 端 优化 


(1) ACK 机 制 


Kafka 在 0.8 版 本 以 后 提供 Producer 端 ack 机 制 ， 设 置 Producer 发 送 消息 到 Borker 是 否 等 待 接收 Broker 返 回 成 功 送 达 的 信号 。 
信号 ， 这 种 方式 吞吐 量 高 ， 但 是 存在 数据 丢失 的 风险 ， 
的 Follower 全 部 同步 完 消息 后 再 作 回应 ， 这 种 方式 在 数据 丢失 风险 和 吞吐 量 之 间 做 了 平衡 。all (或 者 -1) 表示 Broker 接 收 到 Producer 的 消息 成 功 写 入 本 地 log 并 
Producer 返 回 成 功 接收 的 信号 ， 这 种 方式 能 够 保证 消息 不 丢失 ， 但 是 性 能 最 差 。 应 根据 使 用 场景 灵活 选取 ack 方 式 。 


0 表示 Producer 发 送 消息 到 Broker 之 









































(2) 批量 发 送 




















Kafka Producer 发 送 消息 时 通过 配置 “batch.size” 和 “timeout.ms” 
内 存 中 不 断 积累 消息 ， 


两 个 配置 项 ， 分 别 设 置 批 量 发 送 消息 数量 和 等 待 发 送 延 迟 时 间 来 




















(3) 端 到 端 批量 数据 压缩 


当 有 大 批量 的 数据 需要 写 入 Kafka 时 ， 可 能 影响 性 能 下 降 的 








后 不 需要 等 待 Broker 返 
“retries” 配 置 的 发 送 消息 失败 重 试 次 数 将 失效 。1 表 示 Broker 接 收 到 消息 成 功 写 入 本 地 log 文 件 后 向 Producer 返 回 成 功 接收 的 信号 ， 不 需要 等 待 所 有 
等 待 所 有 的 Follower 成 功 写 入 本 地 log 后 向 


合理 的 分 





区 数 ， 提 高 系统 性 


反 回 成 功 送 达 的 


启动 批量 发 送 消 息 功 能 ，Kafka Producer 在 等 待 发 送 期 间 会 在 
当 消息 达到 一 定 的 数量 或 者 等 待 时 间 到 达 时 ， 批 量 将 消息 发 送 到 Kafka。 批 量 发 送 策略 降低 了 Producer 端 发 送 消息 的 网 络 10 次 数 ， 有 效 提高 Producer 发 送 消 息 的 效率 。 


因素 不 是 内 存 、CPU、 磁 盘 等 ， 可 能 瓶颈 是 网 络 带宽 。Kafka 提 供 了 端 到 端的 数据 压缩 传输 ， 在 Producer 端 通过 设 





置 “compression.type” 指 定 发 送 消息 的 压缩 格式 就 可 以 轻松 实现 。 这 对 于 带宽 资源 有 限 ， 跨 机 房 ， 跨 数据 中 心 的 消息 传输 尤为 重要 。 写 入 Kafka 的 批量 压缩 数据 不 会 在 Kafka 中 解压 缩 ， 而 是 以 压缩 状态 








存储 ， 由 Consumer 解 压缩 处 理 。 
LZ4。 


昌 然 Consumer 端 解压 缩 处 理 过 程 增加 了 CPU 的 开销 ， 但 是 对 于 在 网 络 带宽 性 能 瓶颈 的 场景 








7.1.3 ”高 可 用 的 实现 


1. 多 分 区 多 副本 























能 够 有 效 提高 Kafka 吞 吐 量 。 目 前 已 经 支持 的 压缩 格式 有 GZIP，Snappy 和 


























Kafka 中 的 Topic 采 用 分 区 存储 数据 ， 一 般 分 区 数 要 多 于 Broker 数 ， 从 而 保证 各 分 区 Leader 能 够 均匀 地 分 布 到 各 个 Broker 节 点 。 每 个 分 区 可 以 配置 多 个 副本 ， 副 本 数 包含 分 区 本 身 。 多 个 副本 中 会 选举 
一 个 Leader 对 外 提供 服务 ， 其 他 副本 只 是 与 Leader 保 持 心跳 同步 数据 ， 同 步 数据 的 顺序 与 Leader 保 持 一 致 ， 顺 序 存储 。 当 Leader 失 败 不 能 提供 服务 后 ，Kafka 会 从 其 他 存活 的 副本 中 重新 选取 Leader 继 续 提 





供 服务 。 虽 然 为 分 区 添加 





副本 可 能 对 吞吐 性 能 会 有 一 些 影响 ， 但 是 保证 了 系统 的 稳定 性 ， 提 高 了 系统 的 容错 能 








2.Leader 选 举 


(1) Controller 选 举 





Kafka 会 从 Broker 中 选取 一 个 作为 Controller，Controller 在 整个 Kafka 集 群 中 只 有 一 个 ， 作 为 全 局 的 Leader 负 责 整个 集群 的 管理 ， 包 括 Topic 分 
Controller 提 供 了 优雅 、 高 效 的 容错 机 制 。 当 启动 Kafka 的 时 候 ， 各 个 Broker 都 会 争 相 向 Zookeeper 创 建 “controller”znode, 该 znode 只 会 


区 管理 、Broker 








管理 、Topic 的 操作 等 。Kafka 为 
由 一 个 Broker 创 建成 功 ， 创 建成 功 的 Broker 被 选举 为 





因 











Controller， 竞 选 失败 未 成 为 Controller 的 Broker 会 在 “controller”znode 上 创建 监听 。 当 Broker 宕 机 或 者 其 他 原因 导致 Broker 运 行 失败 ，“controller”znode 会 被 删除 ， 
面 描述 的 步骤 竞选 Leader。Kafka 提 供 的 这 种 Controller 况 选 方式 简洁 、 高 效 ， 而 且 能 够 容忍 更 多 的 Broker 失 败 ， 只 要 有 一 个 Broker 存 活 都 可 以 竞选 成 功 成 为 Controller。 















































他 监听 的 Broker 继 续 按照 上 


(2) 分 区 Leader 选 举 
如 果 创建 Topic 设 置 了 多 个 分 区 ， 则 Controller 负 责 分 区 Leader 选 举 ， 初 始 化 创建 时 ， 第 一 个 分 区 采用 随机 分 配 Broker 的 方式 ， 第 一 个 被 分 配 的 分 区 则 为 Leader。 当 Topic 完 全 创建 成 功 之 
后 ，Controller 会 一 直 监 控 各 个 Broker 以 及 各 个 分 区 的 状态 。Kafka 在 Zookeeper 中 动态 维护 了 一 个 目前 存活 的 Follower 副 本 的 集合 (in-sync replicas) ISR， 如 果 Follower 副 本 长 时 间 没 有 与 Leader 进 行 





心跳 连接 或 者 Follower 副 本 同步 的 消息 严重 落后 Leader 中 存储 的 消息 ， 该 Follower 副 本 将 会 被 从 ISR 中 移 
败 ，Controller 将 会 从 ISR 中 选择 一 个 与 之 前 Leader 数 据 同步 一 致 的 副本 作为 新 的 Leader。 





除 ， 这 个 超时 时 间 由 replica.lag.time.max.ms 参 数 设置 。 一 旦 某 个 分 














区 的 Leader 出 现 异常 运行 失 











还 有 一 种 特殊 情况 ， 全 部 副本 都 运行 失败 ， 在 ISR 中 没有 存活 的 副本 ， 此 时 选择 Leader 有 两 种 情况 ， 第 一 种 是 等 待 |SR 集 合 中 的 任何 一 个 
Leader 数 据 一致 ， 不 会 造成 丢 数据 的 风险 ， 缺 点 是 如 果 1SR 中 的 副本 没有 一 个 能 够 再 次 恢复 启动 ， 则 整个 系统 不 可 
启动 起 来 就 把 该 副本 作为 Leader， 这 样 做 的 优点 是 增 大 了 系统 能 
性 之 间 做 一 个 平衡 ， 达 到 一 个 比较 满意 的 效果 。 






























































综合 上 述 几 点 关于 Kafka 的 分 





区 副本 设计 ，Controller Leader 选 举 策略 ， 分 区 副本 Leader 选 举 策略 等 ， 提 高 了 Kafka 的 容错 能 力 ， 为 Kafka 的 高 可 有 











第 7 章 “分布 式 消息 队列 


7.1 Kafka 介 绍 


7.1.1 基本 架构 




















Kafka 是 由 Linkedln 





可 扩 ; 








发 接口 





富 。 各 大 互联 网 


沿 
算 





源 的 分 布 式 消息 队列 ， 能 够 轻松 实现 高 吞吐 、 高 可 用 ， 并 且 部 署 简单 











区 、 





























副本 恢复 之 后 作为 Leader， 这 样 的 优点 是 重新 恢复 的 副本 与 原来 
。 第 二 种 选择 是 不 管 是 ISR 中 的 副本 还 是 从 ISP 中 已 经 移 除 淘汰 的 副本 ， 只 要 有 一 个 
再 次 恢复 服务 的 可 能 ， 缺 点 是 如 果 先 恢复 的 是 之 前 被 淘汰 的 副本 ， 可 能 与 之 前 Leader 数 据 不 同步 ， 造 成 数据 丢失 。 这 就 需要 在 一 致 性 和 可 


副本 


实现 提供 了 有 力 的 支持 。 


公司 已 经 在 生产 环境 中 广泛 使 用 ， 目 前 已 经 有 很 多 分 布 式 处 理 系 


统 支持 使 用 kafka， 比 如 Spark、Strom、Druid、Flume 等 。Kafka 分 布 式 消息 队列 的 作用 : 
- 解 耦 : 将 消息 生产 阶段 和 处 理 阶段 拆 分 开 ， 两 个 阶段 互相 独立 各 自 实 现 自己 的 处 理 罗 辑 ， 通 过 Kafka 提 供 的 消息 写 入 和 消费 接口 实现 对 消息 的 连接 处 理 。 降 低 开发 复杂 度 ， 提 高 系统 稳定 性 。 
:高 吞吐 率 : Kafka 通 过 顺序 读 写 磁盘 提供 可 以 和 内 存 随机 读 写 玫 的 读 写 ii 灵活 的 客户 端 API 设 计 ， 利 用 Linux 操 作 系统 提供 的 " 零 拷 贝 “特性 减少 消息 网 络 传输 时 间 ， 提 供 端 到 端的 消息 压缩 传输 ， 对 同一 主题 下 的 消息 采用 
分 区 存储 ，Kafka 通 过 诸多 良好 的 特性 利用 廉价 的 机 器 就 可 以 轻松 实 











窒 错 


高 容错 、 高 可 用 : Kafka 人 允许 用 户 对 分 区 配置 多 副本 ，Kafka 将 副本 均匀 地 分 配 到 各 个 brokez 存 储 ， 保 证 同一 个 分 区 的 副 
Leader 对 外 提供 读 写 服 务 ， 当 Leader 意 外 失败 、Broker 进 程 关闭 、 服 务 宕 机 等 情况 导致 数据 不 可 用 时 ，kafka 会 从 Follower 中 选择 一 个 Leader 继 续 提供 读 写 服 务 。 

:可 扩展 : 理论 上 Kafka 的 性 能 随 着 Broker 的 增多 而 增加 ， 增 加 一 个 Broker 只 需要 为 新 增加 的 Broker 设 置 一 个 唯一 编号 ， 编 写 好 配置 文件 后 ，Kafka 通 过 Zookeeper 就 能 发 现 新 的 Broker。 
峰值 处 理 ， 例 如 秒杀 系统 、 双 十 一 等 促销 活动 的 爆发 式 集中 支付 系统 、 推 荐 系统 等 都 需要 消息 队列 的 介入 ， 这 类 系统 在 某 个 时 间 点 数据 会 爆发 式 增长 ， 后 台 处 理 系 统 不 能 够 及 时 处 理 峰值 请 求 ， 
后 台 系统 处 理 不 及 时 ， 请 求 数据 严重 挤 压 ， 如 此 恶性 循环 最 终 导致 系统 崩溃 。Kakfa 的 接 入 能 够 使 数据 进行 元 余 存 储 ， 并 保证 消息 顺序 读 写 ， 相 当 于 给 系统 接 入 了 一 个 大 的 组 证 区 ， 既 能 接收 持续 
处 理 能 力 提供 数据 服务 ， 进 而 提高 各 业务 系统 的 峰值 处 理 能 力 。 


本 不 会 在 同一 台 机 器 上 存储 (集群 模式 下 )， 

















多 副本 之 间 采 用 Leader-Follower 机 制 同步 消息 ，$ 


,如 果 没 有 消息 队列 的 接 入 就 会 


只 有 


造成 


卖 暴 增 的 请 求 ， 又 能 根 根据 启 台 受 统 的 


kafka 有 如 此 多 的 优点 并 


Broker: 启动 kafka 的 一 个 实例 就 是 一 个 broker， 默 认 端 























kafka 集 群 

















被 广泛 认可 和 使 用 完全 得 








益 于 它 优秀 的 设计 架构 以 及 丰富 的 开发 接口 。 下 面 将 详细 介绍 kafka 的 设计 架构 ， 如 图 7-1 所 示 。 
































producer 


Wz EE 
push 肖 忆 








consumer0 从 分 区 
p0 拉 取消 息 


broker1l 


rl pl 


副本 rl 同步 分 区 p1 的 数据 


副本 r0 同 步 分 区 p0 的 数据 


consumer0 consumerl 


r0 


consumerl 从 分 区 


pl 拉 取 消息 


consumer group 





图 7-1 Kafka 设计 架构 示意 














Topic: 主题 ，kafka 中 同一 种 类 型 数据 集 的 名 称 ， 相 当 于 数据 库 中 的 表 ，productor 将 同一 类 型 的 数据 写 入 同一 个 topic 下 ，consumer 从 同一 个 topic 消 
个 topic， 如 果 设 置 一 个 topic 有 多 个 partition 和 多 个 replication， 在 物理 上 同一 个 topic 下 的 数据 集会 被 分 成 多 份 存储 到 不 同 的 物理 机 上 。 





Partition: 分 区 ， 一 个 topic 可 以 设置 多 个 分 





























不 设置 默认 为 1。 理 论 上 partition 数 越 多 ， 系 统 的 整体 吞吐 率 就 越 高 ， 但 是 在 实际 应 用 中 并 不 是 partition 越 多 越 好 ， 反 而 过 多 的 partition 在 broker 罕 机 需要 
好 致 partition 暂 时 无 法 提供 服务 ， 造 成 写 入 消息 失败 。 分 区 命名 规则 是 topicname-index (比如 : testtopic-1、testtopic-2 等 ) 。 























Segment: 段 文件 ，kafka 中 最 小 数 折 











名 称 以 topic 名 称 加 partition 索 引 的 方式 命 


Offset: 消息 在 分 区 中 的 偏 移 量 ， 


居 存 储 和 





; = 个 parti 
































口 9092。 一 个 kafka 集 群 可 以 启动 多 个 broker 同 时 对 外 提供 服务 ，broker 不 保存 任何 producer 和 consumer 相 关 的 信息 。 


费 同一 类 型 的 数据 。 逻 辑 上 同一 个 数据 集 只 有 一 


区 ， 相 当 于 把 一 个 数据 集 分 成 多 份 分 别 放 到 不 同 的 分 区 中 存储 。 一 个 topic 可 以 有 一 个 或 者 多 个 分 区 ， 在 创建 topic 的 时 候 可 以 设置 topic 的 partition 数 ， 如 果 





新 对 partition 选 主 ， 在 这 个 过 程 中 耗 时 太 久 会 


Em 位 ，kafka 可 以 存储 多 个 topic， 各 个 topic 之 间隔 离 没有 影响 ， 一 个 topic 包 含 一 个 或 者 多 个 partition， 每 个 partition 在 物理 结构 上 是 一 个 文件 夹 ， 文 件 夹 


tion 包 含 多 个 segment， 每 个 segment 以 message 在 partition 中 的 起 始 偏 移 量 命名 以 log 结 尾 的 文件 ，productor 向 topic 中 发 布 消息 会 被 顺序 写 入 对 
应 的 segment 文 件 中 。Kafka 为 了 提高 写 入 和 查询 速度 ， 在 partition 文 件 夹 下 每 一 个 segment log 文 件 都 有 一 个 同名 的 索引 文件 ， 索 引文 件 以 index 结 尾 。 








来 在 分 区 中 唯一 地 标识 这 个 消息 。 


Replication: 副本 ,一 个 partition 可 以 设置 一 个 或 者 多 个 副本 ， 副 本 主要 保证 系统 能 够 持续 不 丢失 地 对 外 提供 服务 。 在 创建 topic 的 时 候 可 以 设置 partition 的 replication 数 。 


Producer: 消息 生产 者 ， 负 责 


Consumer Group: 消费 者 所 














身 kafka 中 发 布 消息 。 








条 消息 ， 不 会 出 现 同一 个 Consumer Group 中 多 个 consumer 同 时 消费 一 条 消息 造成 一 个 消息 被 一 个 Consumer Group 消费 多 次 的 情况 。 


属 组 ， 一 个 Consumer Group 可 以 包含 一 个 或 者 多 个 consumer， 当 一 个 topic 被 一 个 Consumer Group 消费 的 时 候 ，Consumer Group 内 只 能 有 一 个 consumer 消 费 同一 








Consumer: 消息 消费 者 ，consumer 从 kafka 指 定 的 主题 中 拉 取 消息 ， 如 果 一 个 Topic 有 多 个 分 区 ，Kafka 只 能 保证 一 个 分 区 内 消息 的 有 序 性 ， 在 不 同 的 分 区 之 间 无 法 保证 。 














Zookeeper: Zookeeper 在 kafka 集 群 中 主要 用 于 协调 管理 ，Kafka 将 元 数据 信息 保存 在 Zookeeper 中 ， 通 过 Zookeeper 的 协调 管理 来 实现 整个 Kafka 集 群 的 动态 扩展 、 各 个 Broker 负 载 均 衡 、 


Productor 通 过 Zookeeper 感 知 Partition 的 Leader、Consumer 消 费 的 负载 均衡 并 可 以 保存 Consumer 消 费 的 状态 信息 ， 


则 由 Kafka 自 己 维护 Consumer 消 费 消息 的 偏 移 量 。 


7.1.2 ”高 吞吐 的 实现 








Kafka 通 过 顺序 读 写 磁盘 提供 可 以 和 内 存 随机 读 写 相 











下 的 消息 采用 多 分 











匹敌 的 读 写 速度 ， 使 用 “sendfile” 技 术 实 现 “ 零 拷贝 ”减少 消息 网 络 传输 时 间 ， 通 过 对 客户 端的 优 


























区 存储 ，Kafka 通 过 诸多 


1. 磁 盘存 储 顺 序 读 写 


良好 的 特性 利 





廉价 的 机 器 就 可 以 轻松 地 实现 高 吞吐 率 。 








Kafka0.9 版 本 之 前 Consumer 消 费 消息 的 偏 移 量 记录 在 Zookeeper 中 ，0.9 版 本 之 








mm 


化 设计 提高 消息 发 布 和 订阅 的 性 能 ， 对 同一 主题 





磁盘 存储 的 最 大 优势 是 成 本 低 ， 存 储 能 力 强 ， 持 久 化 时 间 长 ， 不 同 的 消费 者 可 以 对 同一 个 消息 多 次 处 理 ， 但 是 磁盘 的 读 写 速度 被 人 们 普遍 认为 比 内 存 的 读 写 速度 差 很 多 ， 经 过 测试 ， 磁 盘 顺 序 读 写 的 性 


能 比 内 存 随机 读 写 的 性 能 还 


高 ， 但 磁盘 随机 读 写 的 性 能 就 很 差 ， 都 是 在 磁盘 上 进行 读 写 操作 ， 为 什么 磁盘 顺序 读 写 的 性 能 就 比 磁盘 随机 读 写 的 性 能 要 高 很 多 ? 
































中 磁头 和 探 针 需要 快速 地 转动 频繁 寻 道 ， 寻 道 过 程 耗费 了 大 量 时 间 ， 严 重 影响 了 硬盘 的 读 写 性 能 。 


2.PageCache 
























































原因 是 传统 的 机 械 硬盘 在 随机 读 写 过 程 


Page Cache (页 缓存 ) 是 操作 系统 分 配 的 一 块 闲置 内 存 区 域 ， 当 有 其 他 应 用 程序 申请 内 存 时 ， 操 作 系统 会 释放 一 部 分 页 缓存 来 满足 应 用 程序 的 内 存 需求 。 当 有 应 用 程序 需要 读 取 文 件数 据 时 ， 操 作 系统 


首先 在 页 缓存 中 查找 是 否 有 应 





























系统 先 将 应 





Kafka 很 好 地 利 























了 页 缓存 的 高 速 读 写 性 能 ， 
Consumer 有 拉 取 操作 时 ， 先 从 页 缓存 中 查找 ， 如 果 在 页 缓存 中 命中 需要 拉 取 的 消息 则 直接 将 消息 拉 取 走 ， 如 果 发 生 缺 页 的 情况 则 从 log 文 件 中 将 数据 加 载 到 页 缓存 返回 给 Consumer。 通 过 页 缓存 的 使 用 ， 



































程序 要 读 取 的 数据 ， 如 果 没有 (发 现 有 缺 页 ) 则 将 目标 文件 数据 先 加 载 到 页 缓存 中 ， 然 后 从 页 缓存 中 将 数据 发 送 给 应 用 程序 。 当 应 用 程序 需要 将 数据 写 入 到 文件 中 时 
程序 发 送 的 数据 缓存 到 页 缓冲 区 并 标记 为 脏 页 进行 管理 ， 操 作 系统 周期 性 地 将 脏 页 数据 写 入 到 磁盘 文件 中 。 





























， 操 作 


当 Producer 向 kafka 发 布 消息 时 ，Broker 接 收 到 消息 先 将 消息 写 入 页 缓存 ， 并 且 标 记 为 脏 页 ， 操 作 系统 周期 性 地 将 脏 页 数据 写 入 到 分 区 内 的 log 文 件 中 ， 当 
































减少 了 数据 传输 次 数 和 网 络 开销 ， 如 果 Produce 写 入 Kafka 和 Consumer 从 Kafka 中 拉 取 的 速度 达到 一 个 平衡 点 ， 完 全 可 以 在 页 缓存 中 达到 交换 数据 的 目的 。 


Kakfa 使 






























































Scala 开 发 完成 ，Scala 依 赖 于 JVM ，JVM 自 动 完成 垃圾 回收 ， 当 执行 一 次 Full GC 的 时 候 需 要 “Stop The Wrold”， 除 了 GC 所 需 线程 之 外 ， 其 他 线程 都 要 停止 工作 ， 直 到 Full GC 结束 。 如 果 


在 Kafka 中 消息 全 部 缓存 到 JVM ， 如 果 对 象 比较 大 会 频繁 引起 Full GC， 严 重 影响 Kafka 性 能 。Kafka 的 设计 中 采用 页 缓存 的 方式 缓存 消息 ， 避 免 在 JVM 内 部 缓存 数据 带 来 的 负面 影响 。 如 果 Kafka 重 启 或 者 意 
外 宕 机 ，JVM 线 程 内 部 的 缓存 都 会 被 清除 ， 而 操作 系统 管理 的 页 缓存 不 会 受到 任何 影响 ， 可 以 继续 使 用 ， 避 免 了 消息 丢失 的 风险 。 


3. 零 拷贝 


Kafka 的 设计 通过 前 边 介绍 的 磁盘 存储 放 








化 性 能 还 采 



















































































首先 介绍 没有 使 用 “ 零 拷贝 ”技术 的 应 用 程序 之 间 的 数据 传输 过 程 : 


第 一 步 ， 











操作 系统 将 数据 从 磁盘 读 入 内 核 空间 中 的 页 缓存 ; 











， 应 用 程序 将 数据 从 内 核 空间 读 入 

















户 空间 缓冲 





























区 


， 应 用 程序 将 数据 写 回 到 内 核 空 间 放 入 的 Sock 缓 冲 区 中 ; 





第 四 步 ， 操 作 系统 将 数据 从 socket 缓冲 区 复制 到 NIC 缓 冲 区 ， 并 通过 网 络 发 送出 去 。 











侯 檀 
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内 核 缓存 应 用 程序 1 


应 用 程序 2 





图 7-2 未 使 用 “SendFile” 技 术 的 应 用 程序 之 间 的 数据 传输 过 程 




















整个 数据 传输 过 程 中 ， 同 一 份 数 据 在 内 核 与 应 用 程序 之 间 多 次 拷贝 ， 传 输 效率 低下 。 应 用 “SendFile” 技 术 之 后 取消 了 内 核 与 应 用 程序 缓存 之 前 的 传输 ， 数 据 从 磁盘 读 取 出 来 后 直接 从 内 核 缓冲 
到 NIC 缓 冲 区 ， 大 大 简化 了 数据 传输 流程 ， 提 高 数据 传输 效率 ， 为 Kafka 高 吞吐 的 实现 提供 了 高 效 的 数据 传输 保障 。 优 化 之 后 的 数据 传输 流程 如 图 7-3 所 示 。 






































磁盘 




















内 核 绥 冲 区 


页 序 读 写 、 巧 妙 利用 操作 系统 Page Cache 取 得 了 较 好 性 能 ， 但 是 Kafka 的 工程 师 们 没有 停 下 继续 对 Kafka 的 架构 和 实现 方式 进行 优化 的 脚步 。Kafka 为 了 进一步 优 
了 Sendfile 技 术 ， 通 过 “ 零 拷贝 ”发 送 数据 ， 实 现 高 效 数据 传输 。 


区 发 送 








4. 多 分 区 


图 7-3 使 用 “SendFile” 技 术 后 应 用 程序 之 间 的 数据 传输 过 程 





Kafka 将 一 个 主题 数据 分 成 多 个 分 区 存储 ， 每 一 个 分 区 对 应 Consumer 的 一 个 处 理 线程 ， 理 论 上 讲 ， 分 区 越 多 Consumer 的 并 发 处 理 能 力 越 强 ， 但 是 随 着 分 区 的 不 断 增长 ，Consumer 启 动 的 线程 数 也 会 
越 来 越 多 ， 线 程 的 启动 需要 占用 一 部 分 资源 ， 过 多 的 分 区 可 能 不 会 提高 性 能 ， 反 而 会 增加 系统 负担 降低 性 能 。 分 区 数量 的 选择 要 根据 具体 使 用 场景 ， 需 要 经 过 多 次 测试 ， 设 置 合理 的 分 区 数 ， 提 高 系统 性 


ab 
Bb。 

























































































5. 客 户 端 优化 
(1) ACK 机 制 


Kafka 在 0.8 版 本 以 后 提供 Producer 端 ack 机 制 ， 设 置 Producer 发 送 消息 到 Borker 是 否 等 待 接收 Broker 返 回 成 功 送 达 的 信号 。0 表 示 Producer 发 送 消息 到 Broker 之 后 不 需要 等 待 Broker 返 回 成 功 送 达 的 
信号 ， 这 种 方式 吞吐 量 高 ， 但 是 存在 数据 丢失 的 风险 ，“retries” 配 置 的 发 送 消息 失败 重 试 次 数 将 失效 。1 表 示 Broker 接 收 到 消息 成 功 写 入 本 地 log 文 件 后 向 Producer 返 回 成 功 接收 的 信号 ， 不 需要 等 待 所 有 
的 Follower 全 部 同步 完 消息 后 再 作 回 应 ， 这 种 方式 在 数据 丢失 风险 和 吞吐 量 之 间 做 了 平衡 。all (或 者 -1) 表示 Broker 接 收 到 Producer 的 消息 成 功 写 入 本 地 log 并 且 等 待 所 有 的 Follower 成 功 写 入 本 地 log 后 向 
Producer 返 回 成 功 接收 的 信号 ， 这 种 方式 能 够 保证 消息 不 丢失 ， 但 是 性 能 最 差 。 应 根据 使 用 场景 灵活 选取 ack 方 式 。 







































































(2) 批量 发 送 


























Kafka Producer 发 送 消息 时 通过 配置 “batch.size” 和 “timeout.ms” 两 个 配置 项 ， 分 别 设置 批量 发 送 消息 数量 和 等 待 发 送 延迟 时 间 来 启动 批量 发 送 消息 功 能 ，Kafka Producer 在 等 待 发 送 期 间 会 在 
内 存 中 不 断 积 累 消息 ， 当 消息 达到 一 定 的 数量 或 者 等 待 时 间 到 达 时 ， 批 量 将 消息 发 送 到 Kafka。 批 量 发 送 策略 降低 了 Producer 端 发 送 消息 的 网 络 10 次 数 ， 有 效 提高 Producer 发 送 消 息 的 效率 。 


























(3) 端 到 端 批量 数据 压缩 








当 有 大 批量 的 数据 需要 写 入 Kafka 时 ， 可 能 影响 性 能 下 降 的 因素 不 是 内 存 、CPU、 磁 盘 等 ， 可 能 瓶颈 是 网 络 带 宽 。Kafka 提 供 了 端 到 端的 数据 压缩 传输 ， 在 Producer 端 通过 设 
置 “compression.type” 指 定 发 送 消息 的 压缩 格式 就 可 以 轻松 实现 。 这 对 于 带宽 资源 有 限 ， 跨 机 房 ， 跨 数据 中 心 的 消息 传输 尤为 重要 。 写 入 Kafka 的 批量 压缩 数据 不 会 在 Kafka 中 解压 缩 ， 而 是 以 压缩 状态 
存储 ， 由 Consumer 解 压缩 处 理 。 昌 然 Consumer 端 解压 缩 处 理 过 程 增加 了 CPU 的 开销 ， 但 是 对 于 在 网 络 带宽 性 能 瓶颈 的 场景 下 ， 能 够 有 效 提 高 Kafka 吞 吐 量 。 目 前 已 经 支持 的 压缩 格式 有 GZIP，Snappy 和 
LZ4。 


















































7.1.3 高 可 用 的 实现 


1. 多 分 区 多 副本 











Kafka 中 的 Topic 采 用 分 区 存储 数据 ， 一 般 分 区 数 要 多 于 Broker 数 ， 从 而 保证 各 分 区 Leader 能 够 均匀 地 分 布 到 各 个 Broker 节 点 。 每 个 分 区 可 以 配置 多 个 副本 ， 副 本 数 包含 分 区 本 身 。 多 个 副本 中 会 选举 
一 个 Leader 对 外 提供 服务 ， 其 他 副本 只 是 与 Leader 保 持 心跳 同步 数据 ， 同 步 数据 的 顺序 与 Leader 保 持 一 致 ， 顺 序 存储 。 当 Leader 失 败 不 能 提供 服务 后 ，Kafka 会 从 其 他 存活 的 副本 中 重新 选取 Leader 继 续 提 
供 服务 。 虽 然 为 分 区 添加 副本 可 能 对 吞吐 性 能 会 有 一 些 影响 ,但 是 保证 了 系统 的 稳定 性 ， 提 高 了 系统 的 容错 能 力 。 





















































2.Leader 选 举 


(1) Controller 选 举 





Kafka 会 从 Broker 中 选取 一 个 作为 Controller，Controller 在 整个 Kafka 集 群 中 只 有 一 个 ， 作 为 全 局 的 Leader 负 责 整个 集群 的 管理 ， 包 括 Topic 分 区 管理 、Broker 管 理 、Topic 的 操作 等 。Kafka 为 
Controller 提 供 了 优雅 、 高 效 的 容错 机 制 。 当 启动 Kafka 的 时 候 ， 各 个 Broker 都 会 争 相 向 Zookeeper 创 建 “controller”znode, 该 znode 只 会 由 一 个 Broker 创 建成 功 ， 创 建成 功 的 Broker 被 选举 为 
Controller， 竞 选 失败 未 成 为 Controller 的 Broker 会 在 “controller”znode 上 创建 监听 。 当 Broker 宕 机 或 者 其 他 原因 导致 Broker 运 行 失败 ，“controller”znode 会 被 删除 ， 其 他 监听 的 Broker 继 续 按 照 上 
面 描述 的 步骤 竞选 Leader。Kafka 提 供 的 这 种 Controller 竞 选 方式 简洁 、 高 效 ， 而 且 能 够 容忍 更 多 的 Broker 失 败 ， 只 要 有 一 个 Broker 存 活 都 可 以 竞选 成 功 成 为 Controller。 












































(2) 分 区 Leader 选 举 


























如 果 创 建 Topic 设 置 了 多 个 分 区 ， 则 Controller 负 责 分 区 Leader 选 举 ， 初 始 化 创建 时 ， 第 一 个 分 区 采用 随机 分 配 Broker 的 方式 ， 第 一 个 被 分 配 的 分 区 则 为 Leader。 当 Topic 完 全 创建 成 功 之 
后 ，Controller 会 一 直 监 控 各 个 Broker 以 及 各 个 分 区 的 状态 。Kafka 在 Zookeeper 中 动态 维护 了 一 个 目前 存活 的 Follower 副 本 的 集合 (in-sync replicas) 1SR， 如 果 Follower 副 本 长 时 间 没 有 与 Leader 进 行 
心跳 连接 或 者 Follower 副 本 同步 的 消息 严重 落后 Leader 中 存储 的 消息 ， 该 Follower 副 本 将 会 被 从 ISR 中 移 除 ， 这 个 超时 时 间 由 replica.lag.time.max.ms 参 数 设 置 。 一 旦 某 个 分 区 的 Leader 出 现 异常 运行 失 
败 ，Controller 将 会 从 ISR 中 选择 一 个 与 之 前 Leader 数 据 同 步 一 致 的 副本 作为 新 的 Leader。 























还 有 一 种 特殊 情况 ， 全 部 副本 都 运行 失败 ， 在 ISR 中 没有 存活 的 副本 ， 此 时 选择 Leader 有 两 种 情况 ， 第 一 种 是 等 待 |SR 集 合 中 的 任何 一 个 副本 恢复 之 后 作为 Leader， 这 样 的 优点 是 重新 恢复 的 副本 与 原来 
Leader 数 据 一致 ， 不 会 造成 和 数据 的 风险 ， 缺 点 是 如 果 1SR 中 的 副本 没有 一 个 能 够 再 次 恢复 启动 ， 则 整个 系统 不 可 用 。 第 二 种 选择 是 不 管 是 1SR 中 的 副本 还 是 从 ISP 中 已 经 移 除 淘汰 的 副本 ， 只 要 有 一 个 副本 
启动 起 来 就 把 该 副本 作为 Leader， 这 样 做 的 优点 是 增 大 了 系统 能 够 再 次 恢复 服务 的 可 能 ,缺点 是 如 果 先 恢复 的 是 之 前 被 淘汰 的 副本 ， 可 能 与 之 前 LeadeI 数 据 不 同步 ， 造 成 数据 丢失 。 这 就 需要 在 一 致 性 和 可 
性 之 间 做 一 个 平衡 ， 达 到 一 个 比较 满意 的 效果 。 





















































综合 上 述 几 点 关于 Kafka 的 分 区 副本 设计 ，Controller Leader 选 举 策略 ， 分 区 副本 Leader 选 举 策略 等 ， 提 高 了 Kafka 的 容错 能 力 ， 为 Kafka 的 高 可 用 实现 提供 了 有 力 的 支持 。 

















7.2 安装 部 署 
7.2.1 ” Broker 配置 参数 


broker.id: broker 的 唯一 标识 ， 不 同 broker 的 值 必 须 不 能 相同 。 





host.name: 绑 定 的 主机 名 称 或 |P。 


port: 监听 端口 。 





auto.create.topics.enable: 是 否 自动 创建 Topic， 默 认 值 true。 








auto.leader.rebalance.enable: 是 否 启动 Leader 自 动 平衡 ， 如 果 设 置 为 true， 将 会 有 一 个 后 台 线 程 定期 检查 是 否 需要 触发 leader 平 衡 操 作 ， 默 认 值 为 true。 


leaderimbalance.check.interval.seconds: 检查 分 区 是 否 平衡 的 时 间 间 隔 ， 默 认 值 300 秒 。 





leader.imbalance.per.broker.percentage: 每 个 broker 人 允许 的 不 平衡 Leader 的 百分比 ， 超 过 该 值 则 会 触发 Leader 重 新 平衡 ， 默 认 值 为 10。 


compression.type: 设置 Topic 压 缩 格式 ， 目 前 支持 gzip、snappy、lz4 压 缩 格 式 。 


background.threads: 后 台 处 理 任务 线程 数 ， 默 认 值 为 8。 


























delete.topic.enable: 是 否 启 动 删除 主题 功能 ， 如 果 设 置 为 true 开 启 该 功能 ， 则 使 用 Kafka 管 理工 具 就 可 以 删除 主题 。 默 认 值 为 false。 























log.dir: 日 志 数 据 保存 目录 。 默 认 值 为 /tmp/kafka-logs。 




















log.dirs: 日 志 数 据 保存 目录 ， 如 果 没 有 设置 则 使 用 log.dir 设 置 的 存储 路 径 。 


log.retention.bytes: 每 个 分 区 最 大 文件 大 小 。 





log.retention.hours: 数据 保存 时 长 ， 超 时 文件 会 被 删除 ， 默 认 值 为 168 小 时 。 


socket.send.buffer.bytes: Socket 发 送 缓冲 区 大 小 ， 默 认 值 为 102400。 





socket.receive.buffer.bytes: Socket 接 收 缓冲 区 大 小 ， 默 认 值 为 102400。 





socket.request.max.bytes: Socket 最 大 请 求 大 小 ， 默 认 值 为 104857600。 








zookeeper.connection.timeout.ms: 客户 端 与 zookeeper 连 接 的 超时 时 间 。 如 果 未 设置 ， 则 使 用 zookeeper.session.timeout.ms 中 的 值 。 











zookeeper.session.timeout.ms: Zookeeper 最 大 超时 时 间 ， 默 认 值 为 6000 毫 秒 。 
log.segment.bytes: Segment 文 件 大 小 ， 默 认 值 为 1G。 


replica.fetch.wait.max.ms: 副本 Follower 与 leader 之 间 通 信 同 步 消息 的 超时 时 间 ， 默 认 值 为 500 毫 秒 。 











replica.lag.time.max.ms: 如 果 Folloer 没 有 向 Leader 发 送 同 步 消息 请 求 的 时 间或 者 Follower 一 直 没 有 同步 到 Leader 最 后 一 条 消息 的 时 间 超 过 了 该 配置 项 设置 的 时 间 ， 则 该 Follower 将 会 被 移 除 出 ISR， 
默认 值 为 10000 毫 秒 。 





7.2.2 ”分布 式 部 署 


Kafka 分 布 式 部 署 到 三 台 机 器 ,分别 是 192.168.1.1，192.168.1.2，192.168.1.3， 监 听 端 口 9092。 开 启 JMX 监 控 ， 监 听 端 口 为 9997。 





下 载 Kafka 安 装 包 


下 载 地 址 : http://kafka.apache.org/downloads， 选 择 安装 的 Kafka 版 本 。 





wget https://www.apache.org/dyn/closer.cgi?path=/kafka/0.9.0.1/kafka 2.10-0.9.0.1.tgz 








解压 安装 





tar -xzf kafka 2.10-0.9.0.1.tgz 
cd kafka 2.10-0.9.0.1 


修改 Broker 配 置 文件 





Vim config/ server.properties 

broker .id=0 

port=9092 

host.name=192.168.1.1 
num.network.threads=3 

num.io.threads=8 

socket .send.buffer.bytes=102400 

socket .receive.buffer .bytes=102400 
Socket .request .max.bytes=104857600 
log.dirs=/data/kafka/data 1og 
num.partitions=3 a 

num. recovery.threads .per.data.dir=1 
1og.retention.hours=168 

1og.segment .bytes=536870912 
log.retention.check.interval .ms=300000 
Zookeeper .connect=192.168.1.1:2181, 192.168.1.2:2181, 192.168.1.3:2181 
Zookeeper .connection.timeout .ms=6000 








修改 其 他 两 台 机 器 的 Kafka 配 置 文件 中 的 “broker.id” “host.name” 两 个 配置 项 即 可 。 


启动 Kafka: 





JMX_PORT=9997bin/kafka-server-start.sh config/server.propertiesg 











连接 测试 ， 创 建 主题 ad_topic test，3 个 分 区 ，2 个 副本 : 


bin/kafka-topics .sh --create --zookeeper 192.168.1.1:2181, 192.168.1.2:2181 
+ 192.168.1.3:2181 --replication-factor 2--partitions3--topic ad topic test 





通过 |list 命 令 查 看 ad_topic_test 是 否 创建 成 功 : 





bin/kafka-topics.sh --list --zookeeper 192.168.1.1:2181, 192.168.1.2:2181 





通过 --describe 命 令 查 看 --topic ad topic test 信 息 : 





bin/kafka-topics.sh --describe --zookeeper 192.168.1.1:2181, 192.168.1.2:2181 
--topic ad topic test 








显示 信息 如 下 图 所 示 : 














Topic: ad topic test PartitionCount: 3 ReplicationFactor: 2 Configs: 


Topic: ad topic test Partition: 0 Leader: 0 Replicas: 0,1 了 BE 7 二 
Topic: ad topic test Partition: 1 Leader: 1 Replicas: 1,2 Se 二 7 这 
Topic: ad topic test Partition: 2 Leader: 2 Replicas: 2,0 Tors ;0 





显示 信息 说 明 : topic 名 称 为 ad_topic test，3 个 分 区 ，2 个 副本 ，partition0 的 leader 是 broker0， 副 本 分 布 在 broker0 和 broker1，1SR 集 合 包含 broker0 和 broker1， 说 明 Leader 与 Follower 消 息 同步 一 
致 。 其 他 分 区 以 此 类 推 。 











7.3 客户 端 APl 



































Kafka 提 供 了 高 效 稳定 的 客户 端 AP1， 经 过 几 个 版 本 的 不 断 优化 ， 性 能 不 断 提高 ， 下 面 分 别 介绍 Producer 和 Consumer 开 发 API 如 何 使 用 ， 本 节 演 示 的 Java Client API 使 用 kafka0.9 版 本 。 


7.3.1 Producer API 


1. 配 置 参数 介绍 




















bootstrap.servers: Broker 列 表 ， 定 义 格式 host:port， 多 个 Broker 之 间 用 逗号 隔 开 ， 可 以 配置 一 个 也 可 以 配置 多 个 ， 用 于 Producer 发 现 集群 中 的 Broker， 建 议 配置 多 个 ， 防 止 当前 Broker 出 现 问题 连 
接 失 败 。 






































key.serializer: key 反 序列 化 方式 ， 常 用 的 字符 串 反 序列 化 方式 。 

















org.apache.kafka.common.serialization.StringSerializervalue.serializer 











value.serializer: value 反 序列 化 方式 ， 常 用 的 字符 串 反 序列 化 方式 。 

















org.apache.kafka.common.serialization.StringSerializer 











acks: 设置 Producer 发 送 消息 到 Borker 是 否 等 待 接收 Broker 返 回 成 功 送 达 信号 。0 表 示 Producer 发 送 消息 到 Broker 之 后 不 需要 等 待 Broker 返 回 成 功 送 达 的 信号 ， 这 种 方式 吞吐 量 高 ， 但 是 存在 数据 丢 
失 的 风险 ，“retries” 配 置 的 发 送 消息 失败 重 试 次 数 将 失效 。1 表 示 Broker 接 收 到 消息 成 功 写 入 本 地 log 文 件 后 向 Producer 返 回 成 功 接收 的 信号 ， 不 需要 等 待 所 有 的 Follower 全 部 同步 完 消息 后 再 作 回 应 ,这 
种 方式 在 数据 丢失 风险 和 吞吐 量 之 间 做 了 平衡 。all (或 者 -1) 表示 Broker 接 收 到 Producer 的 消息 成 功 写 入 本 地 log 并 且 等 待 所 有 的 Follower 成 功 写 入 本 地 log 后 向 Producer 返 回 成 功 接收 的 信号 ， 这 种 方式 
能 够 保证 消息 不 丢失 ， 但 是 性 能 最 差 。 默 认 值 为 1。 











buffer.memory: Producer 缓 冲 区 大 小 ， 如 果 消 息 产生 的 速度 比 发 送 到 Broker 的 速度 快 ， 则 未 发 送出 去 的 消息 会 被 保存 到 缓冲 区 ， 默 认 值 为 33554432 字 节 (32M) 。 

















block.on.buffer.full: 设置 为 true 缓 冲 区 用 完 后 停止 接收 新 的 消息 ， 设 置 为 false 则 抛 出 BufferExhaustedException 异 常 信息 ， 默 认 值 为 false。 














compression.type: 压缩 格式 ， 可 选 压 缩 格式 有 none、gzip、snappy、lz4， 默 认 值 none。 


retries: 发 送 消息 失败 重 试 次 数 ， 默 认 值 为 0。 

















batch.size: Producer 批 量 发 送 消息 到 同一 个 分 区 的 大 小 ， 向 同一 分 区 批量 发 送 消息 能 够 减少 客户 端的 请 求 次 数 从 而 提高 性 能 ， 但 是 过 大 的 批 处 理 大 小 反而 会 降低 性 能 ， 一 定 要 多 次 测试 之 后 选取 一 个 
合适 的 值 ， 默 认 值 为 16384 字 节 (16KB) 。 

















linger.ms: 延迟 发 送 消息 时 间 ， 起 到 降低 负载 ， 减 少 发 送 请 求 次 数 的 作用 ， 如 果 设 置 的 值 大 于 0 则 消息 不 会 被 立即 发 送出 去 而 是 等 待 发 送 到 一 个 分 区 的 消息 量 到 达 batch.size 设 置 的 值 ， 如 果 在 延迟 时 间 
内 达到 batch.size 设 置 的 批 处 理 值 则 直接 发 送出 去 ， 如 果 在 延迟 时 间 内 没有 达到 batch.size 设 置 的 批 处 理 值 ， 则 等 待 消息 累加 ， 哪 个 值 先 到 达 都 会 触发 发 送 消息 。 默 认 值 为 0 (单位 : 毫秒 ) 。 
































max.request.size: 单 次 请 求 包含 的 消息 最 大 大 小 ， 用 于 限制 Producer 在 单 次 请 求 中 批量 发 送 的 消息 大 小 ， 避 免 发 送 大 量 的 请 求 。 默 认 值 为 1048576 字 节 (1M) 。 














partitioner.class: 可 以 自 定义 分 区 策略 ， 默 认 情况 下 按照 键 值 hash 的 策略 分 





风 




















request.timeout.ms: 客户 端 等 待 请 求 响应 的 超时 时 间 ， 如 果 在 超时 时 间 之 前 没有 收 到 响应 ， 客 户 端 重新 发 送 请 求 ， 如 果 重 试 次 数 耗 尽 ， 则 请 求 失败 ， 默 认 值 为 30000 毫 秒 (30 秒 ) 。 


timeout.ms: 等 待 Broker 确 认 成 功 接收 消息 的 超时 时 间 ， 如 果 acks 设 置 为 0， 则 此 参数 无 效 ， 该 参数 设置 从 服务 端 开始 计时 不 包括 请 求 的 网 络 延 迟 ， 默 认 值 为 30000 毫 秒 (30 秒 ) 。 


2. 代 码 演示 





Properties props = new Properties () 7 
Props.put ("bootstrap.servers", "192.168.1.1:9092, 192.168.1.2:9092, 192.168.1.3:9092"); 


( 
props.put ("acks", "1"); 
props.put ("retries", 3); 
props.put ("batch.size", 16384); 
Props.put ("buffer.memory", 33554432); 
props.put ("key.serializer", "org.apache.kafka.common.serialization.StringSerializer"); 
props.put ("value.serializer", "org.apache.kafka.common.serialization.StringSerializer"); 


Producer<String, String> producer = new KafkaProducer<> (props); 
for(int i = 0; i < 100; i++){ 
String key = "key " + Integer.toString (i); 
String value = "value " + Integer.toString (i); 
producer. send (new ProducerRecord<String, String>(" topic test ", 
key, value)); Ey 
} 


Producer.close (); 





了 解 更 多 细节 请 参考 官方 文档 : 





http://kafka.apache.org/090/javadoc/index.html?org/apache/kafka/clients/producer/KafkaProducer.html 


7.3.2 Consumer API 


1. 配 置 参 数 介绍 



































bootstrap.servers: Broker 列 表 ， 定 义 格式 host:port， 多 个 Broker 之 间 用 逗号 隔 开 ， 可 以 配置 一 个 也 可 以 配置 多 个 ， 用 于 Producer 发 现 集群 中 的 Broker， 建 议 配置 多 个 ， 防 止 当前 Broker 出 现 问题 连 
接 失 败 。 








key.serializer: key 反 序列 化 方式 ， 常 用 的 字符 串 反 序列 化 方式 。 











org.apache.kafka.common.serialization.StringSerializervalue.serializer 








value.serializer: value 反 序列 化 方式 ， 常 用 的 字符 串 反 序列 化 方式 。 














org.apache.kafka.common.serialization.StringSerializer 





fetch.min.bytes: Consumer 单 次 拉 取 请 求 服务 器 返回 的 最 小 数据 量 。 如 果 服 务 端 能 够 返回 的 数据 量 不 足 ， 将 等 待 数据 积累 到 最 小 值 或 者 服务 端 等 待 的 时 间 到 达 超 时 时 间 。 如 果 该 值 大 于 1 字 节 将 导致 
服务 器 等 待 大 量 数据 累积 ， 以 额外 时 间 延 迟 为 代价 提高 服务 器 吞吐 量 。 默 认 值 为 1 字 节 。 














group.id: Consumer 组 id， 该 值 应 该 是 连接 kafka 集 群 的 唯一 值 ， 同 一 组 内 可 以 有 多 个 Consumer。 





heartbeat.interval.ms: Consumer 与 kafka 集 群 保持 心跳 的 时 间 间 隔 ，kafka 通 过 心跳 机 制 来 判断 Consumer 是 否 存 活 和 新 Consumer 的 加 入 ， 动 态 地 对 Consumer 进 行 平衡 调整 。 通 常 该 值 设 置地 要 
低 于 session.timeout.ms 值 的 三 分 之 一 ， 设 置 的 值 越 小 越 能 够 使 kafka 更 快速 地 对 Consumer 进 行 再 平衡 ， 默 认 值 为 3000 毫 秒 。 






































max.partition.fetch.bytes: Consumer 要 求 每 个 分 区 返回 的 最 大 数据 量 ， 每 次 请 求 需要 使 用 的 最 大 内 存 等 于 partitionsxmax.partition.fetch.bytes。 该 值 至 少 等 于 Broker 设 置 的 max.request.size 值 的 
大 小 ， 否 则 Producer 可 能 发 送 大 于 Consumer 一 次 请 求 可 拉 取 的 消息 ， 如 果 发 生 这 种 情况 ，Consumer 将 会 卡 住 并 尝试 去 特定 的 分 区 上 拉 取 这 个 超过 可 拉 取 大 小 的 消息 。 默 认 值 1048576 字 节 (1M) 。 











session .timeout.ms: Kafka 组 管理 检测 故障 的 超时 时 间 ， 默 认 值 为 30000 毫 秒 (30 秒 ) 。 











auto.offset.reset: 当 Kafka 中 没有 Consumer 消 费 的 初始 偏 移 量 或 者 当前 偏 移 量 在 Kafka 中 不 存在 (比如 数据 已 经 被 删除 ) 情况 下 Consumer 从 Kafka 拉 取消 息 的 方式 。earliest 表 示 从 最 早 的 偏 移 量 开 
始 拉 取 ，latest 表 示 从 最 新 的 偏 移 量 开始 拉 取 ，none 表 示 如 果 没 有 发 现 该 Consumer 组 之 前 拉 取 的 偏 移 量 则 抛 出 异常 。 默 认 值 为 latest。 





connections.max.idle.ms: 关闭 空闲 连接 最 大 等 待 时 长 ， 默 认 值 540000 毫 秒 (9 分 钟 ) 。 

















enable.auto.commit: Consumer 是 否 自动 提交 偏 移 量 ， 默 认 值 为 true。 














auto.commit.interval.ms: 如 果 enable.auto.commit 设 置 为 true 自 动 提交 的 时 间 间 隔 ， 默 认 值 为 5000 毫 秒 (5 秒 ) 。 


2. 代 码 演示 
(1) 自动 提交 偏 移 量 


// 初始 化 参数 设置 

Properties props = new Properties ()7 

props.put ("bootstrap.servers", "192.168.1.1:9092, 192.168.1.2:9092, 192.168.1.3:9092"); 
props.put ("group.id", "autotest"); 7 





props.put ("enable.auto.commit", "七 rue" 
// 默认 latest 表 示 从 最 近 一 次 消费 的 篇 移 量 开始 消费， 可 选 值 earliest， 表 示 从 开始 消费 最 早 的 偏 移 量 开 始 
Props.put ("auto.offset.reset", "latest"); 


// 自动 提交 offset 的 时 间 间 隔 


props.put ("auto.commit.interval.ms", "1000") 7 


props.put ("session.timeout.ms", "30000"); 

// key 反 序列 化 方式 

props.put ("key.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); 
// value 反 序列 化 方式 

props.put ("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); 


KafkaConsumer<String, String> Gonsumer = new Kafkaconsumer<> (props); 
// 配置 消费 的 主题 名 称 ， 同 时 消费 多 个 主题 用 逗号 隔 开 。 
Consumer .subscribe (Arrays.asList ("topic test") ) 7 
while (true) { ~ 
ConsumerRecords<String, String> records = consumer.poll (100); 
for (ConsumerRecord<String, String> record : records) { 
System.out .println ("partition->" + record.partition() + ";offset->" + record.offset () 
+ ";key->" + record.key() + ";value->" + record.value()); 


} 





enable.auto.commit 设 置 为 true 表 示 consumer 消 费 的 偏 移 量 自动 提交 ， 交 给 kafka 维 护 。 








auto.commit.interval.ms 为 提交 偏 移 量 的 时 间 间 隔 ， 单 位 : 毫秒 。 


session.timeout.ms 是 consumer 与 kafka 集 群 维持 心跳 的 超时 时 间 ， 当 consumer 连 接 kafka 的 心跳 超过 超时 时 间 ， 该 consumer 进 程 消费 的 partition 将 交 给 同一 组 内 的 其 他 consumer 进 程 消费 。 








bootstrap.servers: broker 列 表 ， 可 以 配置 一 个 也 可 以 配置 多 个 ，consumer 客 户 端 通过 borker 列 表 连 接 kafka 集 群 进而 发 现 集群 中 的 其 他 broker， 建 议 配置 多 个 ， 配 置 一 个 borker 有 可 能 出 现 该 
broker 不 可 用 而 无 法 连接 集群 。broker 通 过 心跳 机 制 自动 检测 一 个 consumer 组 内 失败 的 进程 ，consumer 也 会 周期 性 通过 心跳 机 制 与 集群 通信 ， 让 集群 知道 它 是 存活 的 ， 如 果 consumer 的 心跳 间隔 时 间 超 
过 session.timeout.ms 设 置 的 超时 时 间 则 进 群 认为 该 consumer 进 程 已 经 死 掉 ， 会 让 该 consumer 进 程 消费 的 分 区 交 给 同一 组 内 的 其 他 consumer 消 费 。 









































(2) 手动 提交 偏 移 量 








consumer 消 费 的 偏 移 量 依然 存储 在 kafka 中 ， 但 是 不 再 自动 提交 偏 移 量 ， 采 用 手动 提交 的 方式 。 有 这 样 一 种 常用 的 场景 ， 当 consumer 拉 取 完 一 批 消息 ， 需 要 对 消息 进行 处 理 然后 写 入 到 中 心 存储 ， 比 
如 数据 库 中 ， 如 果 使 用 自动 提交 偏 移 量 ， 在 写 入 数据 库 之 前 已 经 达到 了 auto.commit,interval.ms 设 置 的 时 间 间 隔 自 动 提交 偏 移 量 ， 如 果 写 入 数据 库 失败 则 会 造成 数据 处 理 失败 ， 按 道理 应 该 重新 从 kafka 中 
拉 取 未 被 成 功 处 理 的 消息 ， 但 是 已 经 提交 了 消息 的 偏 移 量 ， 该 consumer 不 能 再 自动 拉 取 到 需要 被 处 理 的 消息 。 如 果 使 用 手动 提交 的 方式 ， 只 有 当 被 处 理 过 的 消息 成 功 写 入 数据 库 之 后 才 提交 偏 移 量 ， 如 果 
消息 写 入 数据 库 失败 则 不 提交 偏 移 量 ， 等 村 下头 拉 肌 消 所 未 直上 k 天 的 消息 重新 由理 这 使 我 们 可 以 精确 控制 消息 何 时 被 视 为 已 消耗 。 手 动 提交 偏 移 量 的 方式 也 会 有 一 种 可 能 的 场景 ， 进 程 可 能 在 插入 
数据 库 之 后 但 在 提交 偏 移 量 操作 之 前 的 间隔 中 失败 (即使 这 可 能 只 是 几 毫 秒 ， 这 是 一 种 可 能 性 ) 。 在 这 种 情况 下 ，consumer 重 新 拉 取 到 的 消息 会 包含 已 经 写 入 数据 库 的 消息 ， 这 样 就 会 造成 部 分 被 处 理 过 
的 消息 重新 处 理 。Kafka 提 供 “ 至 少 一 次 ”被 消费 的 机 制 ， 每 个 消息 可 能 被 传递 一 次 ， 但 在 失败 的 情况 下 可 以 重 传 。 解 决 这 种 重复 消费 的 问题 可 以 将 消息 的 分 区 信息 、 偏 移 量 同 处 理 之 后 的 消息 同时 写 入 数 
据 库 ， 这 样 就 能 保证 同一 条 消息 不 被 重复 写 入 数据 库 ， 从 而 达到 一 条 消息 “只 被 处 理 一 次 ”的 效果 。 




































































































































































Properties props = new Properties () 7 
Ep nak "bootstrap. servers", "192.168.1.1:9092,192.168.1.1:9093,192.168.1.1:9094"); 


ps .put ("group.id", "manualtest" 和 
7 买 二 自动 提 交 偏 移 量 
props.put ("enable.auto.commit", "false"); 
Props.put ("auto.offset.reset", "latest"); 
Props.put ("session.timeout.ms", "30000"); 
props.put ("key.deserializer", "org.apache.kafka.common.serialization.SstringDeserializer"); 
props.put ("value.deserializer", "org.apache.kafka.common.serialization.StringDeserializer"); 


KafkaConsumer<String, String> consumer = new KafkaConsumer<> (props); 
consumer .subscribe (Arrays.asList ("topic test ")); 
final int minBatchSize = 5; Es 
List<ConsumerRecord<String, String>> buffer = new ArrayList<>(); 
while (true) { 
System.out .Print1ln (" 一 -一 -一 -一 -一 -一 -一 开始 轮 询 拉 取 消息 -~-------------- 有 


long starttime = System.CurrentTimeMil11i 
// 没有 订 以 拉 取 的 消息 等 待 的 超时 时 间 ， ET 
// 单位 : 毫秒 。 


者 间 还 没有 可 以 拉 取 的 消息 则 进行 下 一 轮 拉 取 ， 


ConsumerRecords<String, String> records = consumer.poll (10000); 


long endtime = System.currentTimeMillis(); 
long tm = (endtime - starttime) / 1000; 

System.out .println ("~~-———~——————— 结束 轮 询 拉 取 消 
for (ConsumerRecord<String, String> record : 


// 不 同 partition 中 的 offset 可 能 相同 


System.out .Println ("partition->" + record.partition() + "; 


buffer.add (record); 
} 
System.out .Println(" 
if (buffer.size() >= minBatchSize) { 
try { 
System.out .Print1ln 


/7 比如 这 里 将 数据 写 由 所 库 中 恨 邢 ， 


息 , 耗 时 ， "+ tm + " 黎 ---------- 。 


records) 1{ 


offset->" + record.offset() + ";key->" + record.key() + ";value->" + record.value () ) 7 


"+ buffer.size()); 





入 数据 库 开 
可 忆 低 训 拉 人 癌 和 序 关 闭 ， 


// 模拟 在 写 数据 库 阶段 如 果 失 败 kafka 如 何 处 理 consumer 消 费 消息 的 偏 移 量 。 


Thread. sleep (3000); 

System.out .Println(" 
} catch (InterruptedqException e) { 

e.printstackTrace () 7 


// 提交 偏 移 量 

consumer .commitSync (); 
System.out .Println(" 
buffer.clear() 





RE 写 入 数据 库 完 成 -一 ") ; 





了 解 更 多 细节 请 参考 官方 文档 : 





http://kafka.apache.org/090/javadoc/index.html 


Y4 水 结 





Kafka 凭 借 着 优秀 的 架构 设计 和 丰富 的 开发 接 [ 











在 众多 发 布 订阅 消息 系统 中 脱颖而出 ， 并 且 被 广泛 使 


?org/apache/kafka/clients/consumer/KafkaConsumer.html 




















。 Kafka 社 区 也 在 不 断 的 优化 和 改进 ， 在 后 续 的 版 本 中 还 会 一 直 有 更 加 优秀 的 功能 加 入 进来 。 希 望 

















通过 本 章 Kafka 的 实现 原理 介绍 和 API 开 发 实践 对 大 家 理解 和 使 用 kafka 有 所 帮助 。 


第 8 章 ”数据 平台 


监控 系统 


-第 9 章 


第 三 部 分 “项目 实践 


随 着 互联 网 不 断 发 展 ， 公 司 国 


传统 报表 的 开发 方式 是 运营 人 员 或 者 决策 者 提出 报表 需求 ， 产 品 经 理 根据 需求 制 





际 化 进程 不 断 加 速 ， 各 领域 各 业务 线 不 断 延 伸 ， 团 
务 线 的 发 展 。 科 学 、 有 效 、 多 角度 、 全 方位 的 数据 分 析 能 够 为 决策 者 提供 权威 的 数据 参考 标准 ， 为 运营 团 





队 不 断 扩 大 ， 依 靠 传统 的 管理 方式 已 经 很 难 适 应 不 断 变化 的 市 场 需求 ， 需 要 依托 海量 的 数据 和 科学 的 数据 分 析 支 撑 各 业 




















终 测试 交付 报表 。 


数据 平台 的 产生 是 为 了 解决 传统 报表 开发 过 程 中 的 问题 ， 为 运营 人 员 、 
质量 管理 以 及 权限 管理 ， 其 中 个 性 化 定制 提供 多 维 分 析 查 询 、 个 性 化 定制 报表 、 报 表 管 理 等 功能 。 


整个 报表 开发 流 





星 复杂 、 


















































定 具 体 的 报表 可 视 化 方案 ， 数 





涉及 人 员 较 多 、 开 发 周期 长 ， 最 主要 的 问 


题 是 维度 和 统计 项 固定 














公司 决策 者 、 数 据 分 析 工程 师 等 提供 有 效 、 





























队 提供 准确 的 分 析 指 标 作为 参考 指导 ， 为 


准确 的 数据 分 析 服 务 。 数 据 平台 提供 的 数据 分 析 服 务 有 常规 报表 、 























户 提供 更 加 优质 的 服务 和 更 好 的 产品 。 








居 分 析 工 程 师 根据 需求 开发 报表 数据 ， 前 端 开 发 工程 师 根据 报表 可 视 化 方案 开发 页 面 ， 最 
只 能 从 一 个 角度 分 析 数 据 。 





个 性 化 定制 、 数 所 












































日 常 固定 维度 、 统 计 项 的 数据 分 析 结 果 采 用 常规 报表 的 方式 展现 。 非 固定 维度 、 统 计 项 的 数据 分 析 采 用 多 维 分 析 和 自 定 义 报表 的 方式 展现 ， 如 果 是 常用 分 析 需 求 ， 自 定义 的 报表 可 以 发 布 为 常规 报表 
(具有 常规 报表 权限 的 用 户 都 可 以 查看 ) 或 者 我 的 报表 (只 有 自己 有 权限 查看 ) ， 对 自己 定制 的 报表 具有 修改 、 删 除 的 权限 ， 所 有 定制 报表 具有 权限 控制 和 监控 预警 功能 。 超 级 管理 员 可 以 管理 所 有 
户 和 数据 的 权限 。 








见报 表 


需求 分 析 主 要 功能 描述 如 下 : 











2. 个 性 化 定制 


个 性 化 定制 包含 定制 报表 、 报 表 管理 、 多 维 分 析 查 询 三 个 3 


定制 报表 : 选择 不 





-报表 管理 : 


.多维 分 析 查 
从 同一 角度 分 析 使 用 





3 数据 质量 管理 


具有 常规 报表 访问 权限 的 


同 的 主题 〈 数 据 源 ) 将 需要 组 合 在 一 起 分 析 的 维度 、 
成 后 可 以 通过 预览 查看 数据 分 析 的 结果 是 否 满足 要 求 ， 如 果 达 到 预期 目的 点 击发 布 按钮 ， 


个 性 化 定制 报表 的 修改 、 删 除 。 
询 : 人 全 寺 仿 求 ， 不 同 维度 、 














要 功能 模块 。 














4. 权 限 管理 


主要 功能 是 对 已 发 布 的 报表 数据 进行 质量 监控 、 预 警 ， 根 据 权限 范围 














管理 数据 源 。 


统计 项 和 查询 条 件 分 别 拖 搜 到 对 应 的 选择 区 域 ， 如 果 需 要 分 析 结 果 以 图 形 化 展示 ， 
选择 发 布 到 "常规 报表 “或 者 "我 的 报表 “。 


户 都 可 以 查看 。 常 规 报表 展现 的 是 固定 维度 分 析 数 据 ， 报 表 类 型 有 天 报表 、 周 报表 、 月 报表 、 季 度 报表 、 年 报表 等 。 


在 可 视 化 图 形 区 域 选择 图 形 类 型 (折线 图 、 饼 图 、 柱 状 图 、 散 点 图 等 )， 





统计 项 、 查 询 条 件 自由 组 合 ， 从 不 同 的 角度 分 析 数 据 ， 在 分 析 数据 的 过 程 希望 把 某 些 组 合 分 析 条 件 定制 为 固定 的 报表 ， 点 击发 布 按钮 发 布 为 "我 的 报表 "或 者 "常规 报表 “， 方 便 以 后 















































如 果 具 有 管理 员 权限 则 具有 管理 同 级 以 下 的 用 户 权限 ， 添 加 用 户 、 删 除 用 户 、 管 理 用 户 角色 。 

















第 8 章 ”数据 平台 











随 着 互联 网 不 断 发 展 ， 公 司 国际 化 进程 不 断 加 速 ， 各 领域 各 业务 线 不 断 延 伸 ， 团 队 不 断 扩大 ， 依 靠 传统 的 管理 方式 已 经 很 难 适 应 不 断 变化 的 市 场 需求 ， 需 要 依托 海量 的 数据 和 科学 的 数据 分 析 支 撑 各 业 




















务 线 的 发 展 。 科 学 、 有 效 、 多 角度 、 全 方位 的 数据 分 析 能 够 为 决策 者 提供 权威 的 数据 参考 标准 ， 为 运营 团队 提供 准确 的 分 析 指标 作为 参考 指导 ， 为 用 户 提供 更 加 优质 的 服务 和 更 好 的 产品 。 

















传统 报表 的 开发 方式 是 运营 人 员 或 者 决策 者 提出 报表 需求 ， 产 品 经 理 根据 需求 币 
终 测 试 交付 报表 。 整 个 报表 开发 流程 复杂 、 涉 及 人 员 较 多 、 开 发 周期 长 ， 最 主要 的 问题 是 维度 和 统计 项 固定 ， 只 能 从 一 个 角度 分 析 数 据 。 


























数据 平台 的 产生 是 为 了 解决 传统 报表 开发 过 程 中 的 问题 ， 为 运营 人 员 、 公 司 决策 者 、 数 据 分 析 工 程 师 等 提供 有 效 、 准 确 的 数据 分 析 服 务 。 数 据 平台 提供 的 数据 分 析 服 务 有 常规 报表 、 个 性 化 定制 、 数 据 





质量 管理 以 及 权限 管理 ， 其 中 个 性 化 定制 提供 多 维 分 析 查 询 、 个 性 化 定制 报表 、 报 表 管理 等 功能 。 























定 具体 的 报表 可 视 化 方案 ,数据 分 析 工 程 师 根据 需求 开发 报表 数据 ， 前 端 开发 工程 师 根据 报表 可 视 化 方案 开发 页 面 ， 最 






































日 常 固定 维度 、 统 计 项 的 数据 分 析 结果 采用 常规 报表 的 方式 展现 。 非 固定 维度 、 统 计 项 的 数据 分 析 采 用 多 维 分 析 和 自 定义 报表 的 方式 展现 ， 如 果 是 常用 分 析 需 求 ， 自 定义 的 报表 可 以 发 布 为 常规 报表 









































(具有 常规 报表 权限 的 用 户 都 可 以 查看 ) 或 者 我 的 报表 (只 有 自己 有 权限 查看 ) ， 用 户 对 自己 定制 的 报表 具有 修改 、 删 除 的 权限 ， 所 有 定制 报表 具有 权限 控制 和 监控 预警 功能 。 超 级 管理 员 可 以 管理 所 有 


























户 和 数据 的 权限 。 


需求 分 析 主 要 功能 描述 如 下 : 








1. 常 规 报 表 












































具有 常规 报表 访问 权限 的 用 户 都 可 以 查看 。 常 规 报表 展现 的 是 固定 维度 分 析 数 据 ， 报 表 类 型 有 天 报表 、 周 报表 、 月 报表 、 季 度 报表 、 














2. 个 性 化 定制 


个 性 化 定制 包含 定制 报表 、 报 表 管 理 、 多 维 分 析 查 询 三 个 主要 功能 模块 。 





报表 等 。 





定制 报表 : 选择 不 同 的 主题 (数据 源 ) 将 需要 组 合 在 一 起 分 析 的 维度 、 统 计 项 和 查询 条 件 分 别 拖 搜 到 对 应 的 选择 区 域 ， 如 果 需 要 分 析 结果 以 图 形 化 展示 ， 在 可 视 化 图 形 区 域 选 择 图 形 类 型 〈 折 线 图 、 饼 图 、 柱 状 图 、 散 点 图 等 ) ， 


选择 完成 后 可 以 通过 预览 查看 数据 分 析 的 结果 是 否 满足 要 求 ， 如 果 达 到 预期 目的 点 击发 布 按钮 ， 选 择 发 布 到 "常规 报表 “或 者 "我 的 报表 ”。 
-报表 管理 : 个 性 化 定制 报表 的 修改 、 删 除 。 





:多维 分 析 查 询 : 主要 处 理 临时 需求 ， 不 同 维度 、 统 计 项 、 查 询 条 件 自 由 组 合 ， 从 不 同 的 角度 分 析 数 据 ， 在 分 析 数 据 的 过 程 希望 把 某 些 组 合 分 析 条 件 定制 为 固定 的 报表 ， 点 击发 布 按钮 发 布 为 "我 的 报表 "或 者 "常规 报表 “， 方 便 以 后 


从 同一 角度 分 析 使 用 。 


3 .数据 质量 管理 











主要 功能 是 对 已 发 布 的 报表 数据 进行 质量 监控 、 预 警 ， 根 据 权 限 范围 管理 数据 源 。 








4. 权 限 管理 









































如 果 具 有 管理 员 权限 则 具有 管理 同 级 以 下 的 用 户 权限 ， 添 加 用 户 、 删 除 用 户 、 管 理 用 户 角色 。 


























8.2 ”功能 实现 











整体 功能 实现 主要 分 为 两 大 部 分 ， 数 据 可 视 化 和 后 台 服 务 管理 ， 重 点 开发 是 后 台 服 务 管理 部 分 ， 后 台 服 务 管理 主要 包含 ETL、 数 据 摄取 、 查 询 API 开 发 、 平 台 管理 、 监 控 预 警 等 。 











8.2.1 架构 设计 


1 数据 平台 架构 组 成 


"LogServer: 日 志 收集 服务 ， 负 责 收 集 线 上 各 业务 应 用 程序 实时 产生 的 日 志 ， 日 志 类 型 包含 广告 日 志 、 系 统 日 志 、 错 误 上 报 日 志 等 。 


'Kafka: 分 布 式 消息 发 布 订阅 系统 ， 负 责 接收 日 志 收 集 服务 收集 过 来 的 各 种 类 型 日 志 数 据 ， 为 后 续 的 实时 流 数 据 处 理 、 搜 索 服务 、 推 荐 系统 、 离 线 数据 分 析 等 产品 提供 数据 支撑 服务 。 


-Hadoop: 数据 持久 化 存储 ， 离 线 计算 任务 ， 资 源 任务 协调 调度 。 
“Hive: 数据 仓库 ， 提 供 离线 数据 分 析 。 

-Druigd: 提供 低 延 时 多 维度 数据 分 析 服 务 。 

-MySQL: 各 系统 元 数据 存储 。 

"Redis: 维度 表 数 据 存储 。 

-RestAPI: 通过 Rest 接 口 提供 公用 查询 服务 。 

-WebUI: 数据 平台 的 数据 可 视 化 。 


MonitorSystem: 负责 监控 各 系统 指标 数据 ， 保 障 系统 稳定 运行 。 








系统 架构 图 如 图 8-1 所 示 。 
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2. 执 行 过 程 



































日 志 收 集 系统 将 原始 日 志 写 入 到 Kafka，Kafka 中 的 日 志 数 据 会 被 三 种 数据 处 理应 用 程序 订阅 。 








于 历史 数据 回溯 。 














) 将 原始 日 志 写 入 HDFS 压 缩 存储 ， 




















2) 离线 ETL 之 后 写 入 到 Hive 仓 库 ， 用 于 离线 数据 分 析 。 


























3) 实时 流 计算 不 断 拉 取 数 据 消费 ， 其 中 数据 平台 使 用 Spark 进 行 实 时 ETL 和 数据 分 析 ， 处 理 结果 写 入 到 Kafka 作 为 Druid 实 时 索引 服务 数据 源 。Hive 数 据 仓 库 表 按 天 或 者 小 时 分 区 ， 通 过 离线 数据 分 析 为 
Druid 离 线 批量 加 载 数据 服务 提供 数据 源 ， 通 过 重建 索引 对 实时 索引 进行 数据 校正 。 








RestAPI 提 供 了 公共 的 数据 查询 服务 ， 解 耦 数据 查询 和 数据 服务 ，RestAPI 内 部 集成 权限 管理 对 数据 安全 做 了 进一步 保障 ， 为 了 降低 Druid 的 索引 存储 压力 ， 提 高 查询 性 能 ， 将 维度 表 数 据 存储 到 Redis 
中 ， 当 有 查询 结果 返回 时 从 Redis 中 匹配 维度 数据 。 数 据 平 台 前 端 应 用 通过 RestAPI 与 Druid 进 行 交 互 查询 操作 。 




















8.2.2 ”关键 功能 实现 





1. 自 动 构建 索引 任务 




















自动 构建 索引 任务 通过 读 取 配置 信息 自动 完成 批量 加 载 数据 索引 任务 。 








关键 代码 如 下 : 





ms 


自动 构建 索引 任务 

@param ur1l 索 引 服务 访问 地 址 

@param topicName 主 题名 称 

Q@param segmentGranularity 索 引 粒度 

@param intervals 索 引 时 间 间 隔 

Q@param hdfsPath 数 据 源 HDFS 路 径 

Q@param fileTyp 数 据 文件 格式 

eparam delimiter 分 隔 符 

@param dimensionStr 维 度 ， 多 个 维度 用 逗号 隔 开 
Q@param metricSstr 统 计 项 ， 多 个 统计 项 用 逗号 隔 开 
Q@param timestampColumnName 时 间 截 字段 名 称 


public static void autoBuildDruidIndexTask (String Url, String topicName 
String segmentGranularity, String intervals,String hdfsPath 
String file type,String delimiter, String dimensionstr 
String metricstr, String timestampColumnName) { 


try { 

JSONObject resultParam = getIndexJSONObjectParams (url, topicName 
,SegmentGranularity, intervals,hdfsPath 
rfile type,delimiter,dimensionStr, metricstr 
:timestampColumnName); 

if (resultParam != null) { 


String status = resultParam.getString ("status"); 
// 返回 状态 200 表 示 成 功 
if (status.equals("200")) { 
JSONObject topicInfo = resultParam.getJSONObject ("topicInfo"); 
System.out. Println ("参数 i :" + topicInfo.toString()); 
// 构建 主题 索引 规则 
JSONObject indexRule = buildTopicIindexRule (topicInfo); 
// 发 送 索 引 任务 请 求 
ClientConfig cc = new DefaultClientConfig () 7 
Client client = Client.create (cc); 


// 返回 状态 为 索引 任务 id, 根据 返回 状态 判断 是 否 重新 发 送 索引 任务 。 








String indexStatus = postRemoute (Client,url, indexRule.toString()) 7 
} else { 
System.out .Println("failed status:"+ status); 


lelse{ 
System.out .Println("resultParam is null"); 


} 
}catch (JSONException e){ 
e.printstackTrace (); 
} 





.自动 构建 索引 规则 





根据 topic 配 置信 息 构 建 批量 加 载 规 则 。 关 键 代码 如 下 : 





jy 
* @param topicInfo 
* @return 
* Qthrows JSONException 
六 
克 
public static JSONObject buildTopicIndexRule (JSONObJject topicInfo) throws JSONException{ 
JSONObject indexRule = new JSONObject (); 
// 设置 加 载 数据 类 型 为 hadoop 
indexRule.put ("type","index hadoop"); 
JSONObject dataSchema = new JSONObject (); 
JSONObject spec = new JSONObJject (); 
String topicName = topicInfo.getString ("topicName"); 
dataSchema.put ("dataSource", topicName); 


// 解析 规则 
JSONObject parser = new JSONObJject () 7 


Parser.Put ("type", "hadoopyString"); 


JSONObject parseSpec = new JSONObject (); 
parseSpec.put ("format", topicIinfo.getString ("fileType")); 
if (topicIinfo.getString ("fileType") .equals ("tsv")){ 
ParseSpec.put ("delimiter", topicIinfo.getString ("delimiter")); 


} 

// 时 间 锥 规则 

JSONObject timestampSpec = new JSONObject () 7 

String timestamp = topicInfo.getString ("timestamp"); 
timestampSpec.put ("column",timestamp); 
timestampSpec.put ("format", "auto"); 


JSONArray columns = topicIinfo.getJSONArray ("columns"); 
// 维度 规则 

JSONObject dimensionsSpec = new JSONObject (); 

JSONArray dimensions = topicInfo.getJSONArray ("dimensions"); 
dimensionsSpec.put ("dimensions", dimensions); 


parseSpec.put ("timestampSpec",timestampSpec); 
parseSpec.put ("colums", columns); 

parseSpec.put ("dimensionsSpec", dimensionsSpec); 
parser .put ("parseSpec",parseSpec); 


// 添加 解析 规则 
dataSchema.put ("parser",parser); 


// 统计 项 规则 
JSONArray metrics = topicInfo.getJSONArray ("metrics"); 
JSONArray metricsArray = new JSONArray(); 
if (metrics != null)1{ 
if (metrics.length() > 0){ 
// 默认 count 统 计 项 
JSONObject count = new JSONObject () 7 
count .put ("type", "count"); 
count .put ("name", "count"); 
metricsArray.put (count); 
for (int i=0;i<metrics.length();i++){ 
String m = metrics.getString (i); 
JSONObject mt = new JSONObject (); 
mt.put ("type", "longSum"); 
mt.put ("name",m); 
mt.put ("fieldName",m); 
metricsArray.put (mt); 
} 
}else{ 
JSONObject count = new JSONObject () 7 
Count .put ("type", "count"); 
count .put ("name", "count"); 
metricsArray.put (count); 


jelsef 
JSONObject count = new JSONObject () 7 
Count .Put ("type", "count"); 
Count .Put ("name", "count"); 
metricsArray.put (count); 


} 


// 添加 统计 项 规则 

dataschema.put ("metricsSpec",metricsArray); 

// 粒度 规则 

JSONObject granularitySpec = new JSONObject () 7 
granularitySpec.put ("type", "uniform"); 
String segmentGranularity = topicInfo.getString ("segmentGranularity"); 
granularitySpec.put ("segmentGranularity", segmentGranularity); 
granularitySpec.put ("queryGranularity", segmentGranularity); 
// 索引 时 间 间 隔 
JSONRrray intervals = new JSONArray () 7 
intervals.put (topicInfo.getString ("intervals")); 
granularitySpec.put ("intervals", intervals); 

// 添加 粒度 规则 

dataschema.put ("granularitySpec", granularitySpec); 

// 添加 schema 规 则 

spec.put ("dataSschema", dataSchema); 
// 数据 源 HDFS 路 径 
JSONObject inputSpec = new JSONObject (); 
inputSpec.put ("type", "static"); 
String hdfs paths = topicInfo.getString ("hdfs paths") + "/*"; 
inputSpec.put ("paths",hdfs paths); 
JSONObject ioConfig = new JSONObject (); 
ioConfig.put ("type", "hadoop"); 
ioConfig.put ("inputSpec", inputSpec); 


// 添加 数据 源 路 径 


spec.put ("ioConfig", ioConfig); 











JSONObject tuningConfig = new JSONObject (); 
// hadoop 任 务 优化 参数 
JSONObject jobProperties = new JSONObject () 7 
jobProperties.put ("mapreduce.map.java.opts","-Duser.timezone=UTC 
-Dfile.encoding=UTF-8 -Xmx5120m"); 
jobProperties.put ("mapreduce.reduce.java.opts","-Duser.timezone=UTC 
-Dfile.encoding=UTF-8 -Xmx5120m"); 
jobProperties.put ("mapreduce.input.fileinputformat.split.maxsize","200000000"); 
jobProperties.put ("mapreduce.reduce.memory.mb", "8192"); 
jobProperties.put ("mapreduce.map.memory .mb", "8192"); 
jobProperties.put ("yarn.nodemanager .vmem-pmem-ratio", "16"); 
jobProperties.put ("yarn.nodemanager .pmem-check-enabled", "false"); 


// druiq 优 化 参数 
JSONObject partitionsSpec = new JSONObject (); 





// 采用 哈 希 分 区 策略 
partitionsSpec.put ("type", "hashed"); 


// 每 个 segment 的 大 小 控制 在 500MB 到 1G 之 间 。 
partitionsSpec.put ("targetPartitionSize","4000000"); 
tuningConfig.put ("type", "hadoop"); 

tuningConfig.put ("jobProperties",jobProperties); 
tuningConfig.put ("partitionsSpec",partitionsSpec); 


// 是 否 使 用 新 的 后 台 线 程 去 完成 持久 化 ， 使 用 此 功能 会 使 内 存 压 力 和 CPU 使 用 
// 率 显著 增长 ， 但 是 会 使 任务 更 快速 完成 ， 如 果 修 改 默认 值 ， 推 荐 设置 为 1〈 默 认 值 : 0) 。 
tuningConfig.put ("numBackgroundPersistThreads",1); 








// MapReduce 任 务 在 map 阶 段 合 并 行 ( 默 认 值 : false) 。 
tuningConfig.put ("useCombiner", "true"); 


// 会 覆盖 已 存在 的 索引 ， 如 果 设 置 为 false， 则 回溯 历史 数据 时 历史 索引 不 会 更 新 。 
tuningConfig.put ("overwriteFiles", "true"); 
spec.put ("tuningConfig", tuningConfig); 
indexRule.put ("spec", spec); 
JSONArray hadoopVersion = new JSONArray (); 
// 设置 Hadoop 版 本 
hadoopVersion.put ("org.apache.hadoop:hadoop-client:2.6.0"); 
indexRule.put ("hadoopDependencyCoordinates",hadoopVersion); 
return indexRule; 


i 

















使 用 Hadoop 批 量 加 载 数据 的 问题 和 解决 办 法 : 











1) 修改 Druid 日 志 配 置 文件 ， 具体 如 下 : 





Vim conf/druid/ common/10g4j2.xml 

<?xml version="1.0" encoding="UTF-8" ?> 

# 关 闭 Hook， 否 则 报错 Unable to register shutdown hook because JVM is shutting down 
<Configuration status="WARN" shutdownHook="disable"> 
<Appenders> 

<Console name="Console" target="SYSTEM OUT"> 
<PatternLayout pattern="%d{IS0O8601} %p [%t] %c - %msn"/> 
</Console> 

</Appenders> 

<Loggers> 

# 日 志 级 别 改 成 error， 默 认 info 

<Root level="error"> 

<AppenderRef ref="Console"/> 

</Root> 

</Loggers> 

</Configuration> 











2) 时 区 问题 引起 离线 加 载 数据 报错 ,报错 信息 如 下 : 








Caused by: java.lang.RuntimeException: java.lang.RuntimeException: No buckets?? seems there is no data to index. 
at io.druid.indexer.IndexGeneratorJob.run (IndexGeneratorJob.java:211) ~[druid- indexing-hadoop-0.8.3.jar:0.8.3] 
at io.druid.indexer.JobHelper.runJobs (JobHelper.java:321) ~[druid-indexing-hadoop-0.8.3.jar:0.8.3] 
at io.druid.lndexer.HadoopDruidIndexer30b.run (HadoopDruidIndexerJob.java:96) ~[druid-indexing-hadoop-0.8.3.jar:0.8.3] 
at io.druid.indexing.common.task.HadoopIndexTask$HadoopIndexGeneratorInnerProcessing.runTask (HadoopIndexTnsk.java:259} ~[druid-indexing-service-0.8.3.jar:0.8.3] 
at sun.reflect.NativeMethodAccessorImpl .invoke0 (Native Method) ~[?:1.8.0 51] 
at sun.reflect.NativeMethodAccessorImpl .invoke (NativeMethodAccessorImpl .java:62) ~[?:1.8.0 51] 
at sun.reflect.DelegatingMethodAccessorImpl .invoke (DelegatingMethodAccessorImpl.java:43) ~[?:1.8.0 51] 
at java.lang.reflect.Method.invoke)Method.java:497) ~[?:1.8.0 51] 及 


at io.druid.indexing.common.task.HadoopTask.invokeForeignLoader (HadoopTask.java:135) ~[druld-indexing-service-0.8.3.jar:0.8.3] 
http://www.hzcourse.com/resource/readBook?path=/openresources/teach ebook/uncompressed/16525/OEBPS/Text/... 7 more 

Caused by: java.lang.RuntimeException: No buckets?? seems there is no dara to index. 
at io.druid.indexer.IndexGeneratorJob.run (IndexGeneratorJob.java:160) ~[druid- indexing 


原因 : Hadoop 执 行 napreduce 任 务 的 时 区 和 druid 不 是 同一 个 时 区 。 














解决 方法 : 在 创建 索引 任务 的 加 载 规则 中 设置 MapReduce 任 务 使 用 的 时 区 。 








"tuningConfig" : { 
"type": "hadoop", 
"jobProperties": { 
"mapreduce .map.java.opts":"-Duser.timezone=UTC -Dfile.encoding=UTF-8", 
"mapreduce.reduce.java.opts":"-Duser.timezone=UTC -Dfile.encoding=UTF-8" 











3) 索引 申请 内 存 超过 物理 内 存 ， 虚 拟 内 存 超过 限制 值 ， 报 错 信息 如 下 : 





Container [pid=23077,containerID=container 1450319389800 2716145 01 000007] is running beyond physical memory limits. Current usage: 2.2 GB of 2 GB physical memory used; 31.7 C 











原因 : 索引 任务 启动 的 container 试 图 使 用 的 物理 内 存 超过 了 环境 设置 的 物理 内 存 ， 同 时 虚拟 内 存 也 超过 了 环境 设置 的 虚拟 内 存 而 被 NodeManager kill 掉 。 











解决 方法 : 调 高 mapreduce.map.memory.mb 和 mapreduce.reduce.memory.mb 的 值 ，YARN 默 认 虚 拟 内 存 与 物理 内 存 的 比率 为 2.1， 通 过 调 高 “yarn.nodemanager.vmem-pmem-ratio” 的 值 提 
高 虚拟 内 存 的 大 小 。 








"mapreduce .map.java.opts":"-Xmx5120m", 

"mapreduce. reduce.java.opts":"-Xxmx5120m", 
"mapreduce.input.fileinputformat .split .maxsize":"200000000"™", 
"mapreduce.reduce.memory.mb": "8192", 

"mapreduce .map.memory .mb":"8192", 

"yarn.nodemanager .vmem-pmem-ratio":"16" 





3. 查 询 规则 














查询 规则 包含 基础 规则 、 过 滤 规 则 、 聚 合 函 数 规则 ，commonQueryRule 函 数 作为 规则 构建 入 口 函 数 ， 负 责 根 据 不 同 的 配置 信息 整合 查询 规则 。commonFitterRuleConfig 函 数 根据 过 滤 条 件 生成 过 滤 
规则 。postAggregatorDivRule 函 数 生成 除法 运算 规则 。basicRuleContfig 函 数 在 commonQueryRule 函 数 中 调用 ， 整 合 过 滤 规 则 、 聚 合 函 数 规则 、 基 础 规则 ， 返 回 最 终 的 查询 规则 。 下 面 分 别 介绍 四 个 关 
键 函数 的 具体 实现 。 








常规 查询 规则 入 口 函数 
@param queryType: 查询 类 型 
@param datasource: 数据 源 
@param intervals: 查询 时 间 范 围 
eparam dimensions: 查询 维度 ， 多 个 值 用 逗号 隔 开 
Q@param commonMetrics: 常规 统计 项 
@param rateMetrics: 非 uv 各 种 率 统计 项 
Q@param whereParam: where 过 滤 条 件 
* Qreturn JSONObJject 
六 
克 
public static JSONObject commonQueryRule (String queryType, String datasource 
, String intervals, String dimensions 














站 外 外 外 外 外 外 











/ JSONArray commonMetrics,JSONArray rateMetrics 
， JSONObject whereParam, String reportType) 
throws JSONException { 

JSONObject rule = null; 

/六 大 克 六 玉 太太 坟 大大 二 大 三 类 过 淖 条 件 本 > 轩 庆 太太 太太 大大 大 大 大 太太 天 太太 人 

// 生成 常规 过 滤 条 件 

JSONObject commonFilter = null; 

if (whereParam != null){ 

commonFilter = FilterRuleConfig.commonExecFilterRuleConfig (whereParam); 





/六 六 闪光 交 交 关 灵 交 六 关头 交 六 除 合 计算 规则 二 关 汪汪 二 关 灾 二 大友 广 关 实 炎 福 了/ 

JSONArray aggregations = null; 

if (commonMetrics !=null && commonMetrics.length() > 0){ 

aggregations = AggregatorRuleConfig.commonRuleConfig (commonMetrics); 

/六 六 六 炎炎 类 六 炎炎 六 炎 类 六 炎 其 和 上 西 D 轩 二 六 大 六 二 大大 六 炎 太 六 文 炎 大 大 炎炎 人 

rule = basicRuleConfig (queryType datasource , intervals, dimensions, 

reportType, commonFilter ,aggregations); 

} 

JSONArray postAggregations = null; 

// 各 种 率 的 计算 使 用 postaggregation 聚 合 函数 ， 如 : 

// click_cnt/ 曝 光量 pv_cnt 

if(rateMetrics !=null && rateMetrics.length() > 0){ 
postAggregations=PostAggregatorRuleConfig.postAggregatorDivRule (rateMetrics); 

rule.put ("postAggregations", postAggregations); 





击 率 click_rate = 点 击 量 


return rule; 
} 
大 大 
* 过 滤 规 则 
* @param whereParam: 存储 过 滤 条 件 的 json 对 象 
* @return JSONArray 
* @throws JSONException 
六 
/ 
public static JSONArray commonFilterRuleConfig (JSONObject whereParam) throws JSONException 
JSONArray filters = new JSONArray () 7 
if (whereParam != null){ 
Iterator it = whereParam.keys(); 
while(it.hasNext ()){ 
JSONObject filter = new JSONObject (); 
String key = (String) it.next(); 
String value = whereParam.getString (key); 
// 一 个 维度 过 滤 多 个 值 使 用 or， 类 似 a=1 or a=2 or a=3， 
if (value.contains("™,")){ 
String[] values = value.split (","); 
JSONArray fields = new JSONArray (); 
for (int i=0;i<values.length;i++){ 
JSONObject item = new JSONObJject () 7 
// 个 别 过 滤 需 要 模糊 匹配 ， 类 似 SQL 语 句 中 的 1ike 语 法 ， 这 里 
// 使 用 JavaScript Filter 实 现 
if (key.equals ("areatag id")){ 
item.put ("type", "javascript"); 
item.put ("dimension", key); 
item.put ("function", "function(x) { 
return ((''+x) .indexOf ('"+values[i]+""')>-1) }"); 








}else{ 
item.put ("type", "selector"); 
item.put ("dimension", key); 
item.put ("value", values[i]); 
} 
fields.put (item); 
} 
filter.put ("type", "or"); 
filter.put ("fields", fields); 
}elsef{ 
if (key.equals ("areatag id")){ 
filter.put ("type", "javascript"); 
filter.put ("dimension", key); 
filter.put ("function", "function(x) { 
return ((''+x) .indexOf ('"+tvaluet+"')>-1) }"); 





}else{ 
filter.put ("type", "selector"); 
filter.put ("dimension", key); 
filter.put ("value", value); 
} 
} 
filters.put (filter); 
} 
} 
return filters; 
}, 
* postAggregation 函 数 规则 
* @param mts 
* @return 
* @throws JSONException 
/ 
public static JSONArray postAggregatorDivRule (JSONArray mts) throws JSONException { 
JSONArray rules = new JSONArray () 7 
for (int i=0;i<mts.length();i++){ 
String metricName = mts.getString (i); 
JSONObJject divRule = new JSONObJject () 7 
divRule.put ("type", "arithmetic") 7 
divRule.put ("name",metricName); 
// 除 运算 结果 需要 乘 以 100 生 成 百分率 
divRule.put ("fn","*"); 
JSONObject fieldJsonl = new JSONObJject (); 
fieldJsonl .put ("type", "arithmetic"); 
fieldJsonl .put ("name", "div"); 
fieldJsonl .put ("fn","/"); 
JSONArray arr = new JSONArray (); 
// 点 击 率 click_rate = 点 击 量 click_cnt/pv_cnt 曝 光量 
if (metricName .equals("click rate")){ 
JSONObject fieldobjl = new JSONObject () 
fieldOobj1.put ("type", "fieldAccess"); 
fieldobj1.put ("name", "click cnt"); 
fieldobj1.put ("fieldName", "click cnt"); 
JSONObject fieldobj2 = new JSONObject (); 
fieldObj2.put ("type", "fieldAccess"); 
fieldobj2.put ("name", "pv_cnt"); 
fieldobj2.put ("fieldName™, "pv_cnt"); 
JSONArray fieldsArray = new JSONArray () 7 
fieldsArray.put (fieldobj1); 
fieldsArray.put (fieldOobj2); 
fieldJsonl .put ("fields", fieldsArray); 








} 
JSONObject fieldJson2 = new JSONObject (); 
fieldJson2.put ("type", "constant"); 
fieldJson2.put ("name", "const"); 
fieldJson2.put ("value",100); 
arr.put (fieldJson1) 7 
arr.put (fieldJson2); 
divRule.put ("fields",arr); 
rules.put (divRule); 

} 


return rules; 


Q@param queryType 查 询 类 型 
Q@param datasource 数 据 源 
@param intervals 查 询 时 间 段 
@param dimensions 显 示 维 度 
Q@param reportType 报 表 类 型 
@param filter 过 滤 条 件 
@param aggregations 
@return 

* Qthrows JSONException 

六 

/ 
public static JSONObject basicRuleConfig (String queryType, String datasource 


冰冰 冰冰 冰冰 站 下 


:String intervals, String dimensions, String reportType 
JSONObJject filter,JSONArray aggregations) 
throws JSONException { 
/闪光 六 闪光 交 六 类 太 交 六 大 大 六 六 基础 配置 六 大 二 关 大大 交 六 类 克 交 六 大 克 交 大/ 
JSONObject queryRuleConfig = new JSONObject () 7 
queryRuleConfig.put ("queryType", queryType); 
queryRuleConfig.put ("dataSource", datasource); 
if(reportType !=null && reportType.equals ("month")){ 
JSONObject granularityConfig = new JSONObject (); 
granularityConfig.put ("type", "period"); 
granularityConfig.put ("period", "Pl1M"); 
queryRuleConfig.put ("granularity", granularityConfig); 
J}elsef{ 
queryRuleConfig.put ("granularity", reportType); 


JSONArray itl = new JSONArray () 7 
itl.put (intervals); 
queryRuleConfig.put ("intervals", itl); 
六 二 太太 文火 大 类 文火 大 类 坟 **y 查 询 维 度 规则 配置 # 关 大业 大大 大火 大 大 六 炎 大 类 大火 大 人 
// 字符 串 类 型 的 维度 转换 成 数组 形式 





if(dimensions != null && !qimensions .equals ("") ) { 
JSONRrray dimensionArray = new JSONArray(); 
if(dimensions.contains(",")){ 


String[] dsarray = dimensions.split(","); 
if(dsarray.length > 0){ 
for (int i=0;i<dsarray.length;i++) { 
dimensionArray.put (dsarray[i]); 
} 
} 
Jelse{ 
dimensionArray.put (dimensions); 


queryRuleConfig.put ("dimensions", dimensionArray); 


六 赤 夫 太太 炎 赤 赤 赤 二 类 大 太太 过 淖 条 件 本 了 置 庆 太太 太太 大 大 大 大 二 太太 太太 大大 大人 
if(filter != null && filter.length() > 0){ 
queryRuleConfig.put ("filter", filter); 


六 六 炎 太 炎炎 坟 太夫 类 天 坟 业 类 大大 联合 计算 本 轩 坟 * 太 大雪 太太 大雪 太太 大 六 大 大 大 塘 / 
if(aggregations != null && aggregations.length() >0 ){ 
queryRuleConfig.put ("aggregations", aggregations); 


return queryRuleConfig; 





83 水 结 























本 章 通过 需求 分 析 、 架 构 设计 、 功 能 实现 三 个 方面 介绍 了 Druid 如 何 完成 一 整套 数据 平台 的 开发 过 程 。Druid 还 有 其 他 很 多 场景 可 以 使 用 ， 比 如 利用 Druid 按 时 间 顺 序 存储 的 特性 可 以 应 用 到 监控 系统 的 
指标 存储 分 析 等 。 

















第 9 章 ”监控 系统 


监控 系统 在 整个 系统 架构 中 的 地 位 非常 重要 ， 一 款 优 秀 的 监控 系统 能 够 帮助 开发 和 运 维 人 员 第 一 时 间 发 现 问题 ， 做 到 “ 早 发 现 里 治疗 ”， 甚 至 在 问题 未 出 现 之 前 提前 预警 避免 问题 的 发 生 。 开 源 的 监控 
系统 种 类 很 多 ， 包 含 监控 指标 采集 、 存 储 、 可 视 化 等 ， 下 面 详细 介绍 通过 JMXTrans、InfluxDB、Grafana 构 建 一 套 完整 的 监控 系统 。 监 控 系统 基础 架构 如 图 9-1 所 示 。 























Grafana 可 视 化 UT、 监控 报警 


时 序数 据 库 ， 各 项 监控 
ER 指标 按照 时 间 顺 序 存储 


JMX Trans JMX 指 标 采 集 


基于 JVM 的 应 用 程序 持 
续 发 送 JMX 监 探 指标 





图 9-1 ”监控 系统 基础 架构 示意 图 


9.1 InfluxDB 


InfluxDB 是 一 款 开源 分 布 式 时 序数 据 库 ， 非 常 适合 存储 监控 系统 收集 的 指标 数据 。 时 序数 据 库 顾名思义 是 按照 时 间 顺 序 存储 指标 数据 ， 由 于 监控 系统 的 场景 大 部 分 是 按照 时 间 顺 序 存储 各 项 指标 数据 的 
特性 ， 过 期 时 间 太 长 的 指标 可 能 将 不 会 再 关注 ， 为 了 提高 数据 库 的 存储 率 ， 提 高 查询 性 能 ， 过 期 指标 需要 定期 删除 。InfluxDB 的 诸多 特性 非常 适合 监控 系统 的 使 用 场景。 











9.1.1 InfluxDB 简 介 


InfluxDB 特 点 : 

1) 支持 类 SQL 查询 语句 。 

2) 简单 易 用 的 可 视 化 管理 。 

3) 支持 灵活 的 数据 保留 策略 ， 用 户 根据 数据 库存 储 数据 的 特点 自 定义 保留 策略 。 
4) 多 副本 。 


核心 概念 : 


“qatabase: 数据 库 名 称 ， 默 认 数据 库 ” internal“。 

-measurement: 等 同 于 传统 数据 库 中 表 的 概念 。 

Point: measurement 中 的 一 行 数据 ， 包 含 tag、field、time。 

“tag: 维度 值 ， 常 用 于 查询 语句 中 的 限制 条 件 过 滤 ， 写 入 时 如 果 有 多 个 tag 用 逗号 隔 开 。 
`field: 统计 项 key-value 指 标 键 值 对 ， 写 入 时 如 果 有 多 个 tag 用 逗号 隔 开 。 
-time: 时 间 惟 ， 如 果 写 入 的 数据 没有 传 入 时 间 稚 ， 系 统 会 采用 运行 的 服务 器 时 间 。 
“retention policy: 保留 策略 ， 默 认 保留 策略 为 永久 。 








更 多 详细 信息 请 参考 Github InfluxDB 项 目地 址 : https://github.com/influxdata/influxdb。 


9.1.2 InfluxDB 安 装 


安装 环境 : 操作 系统 CentOS6.6，JDK1.7， 内 存 128G，InfluxDB-0.11.1-1.x86_64 版 本 。 
使 用 RPM 方式 安装 InfluxDB。 


(1) 下 载 RPM 安装 包 





wget http://influxdb.s3.amazonaws.com/influxdb-0.11.1-1.x86 64.rpm 





(2) 安装 





rpm -iinfluxdb-0.11.1-1.x86 64.rpm 





安装 完成 后 查看 启动 脚本 /etc/init.d/influxdb 获 取 如 下 运行 配置 信息 ， 可 根据 实际 情况 修改 。 
配置 文件 目录 : /etc/opt/influxdb/influxdb.conf 

PID 文 目录 : /var/run/influxdb/influxd.pi 

日 志 目 录 : /var/log/influxdb/influxd.log 

(3) 配置 


修改 配置 文件 : 





Vim /etc/opt/influxdb/influxdb.conf 
# 元 数据 配置 信息 

[metal 
# 元 数据 存储 目录 

dir = "/var/opt/influxdb/meta" 
# 绑 定 的 hostname 

hostname = "192.168.1.1" 

# 监 听 端 口号 

bind-address = ":8088" 
retention-autocreate = true 
election-timeout = "1s" 
heartbeat-timeout = "1S" 
leader-lease-timeout = "500ms" 
commit-timeout = "50ms" 

# 数 据 存储 路 径 

[datal] 

dir = "/var/opt/influxdb/data" 
#WAL 日 志文 件 路 径 

wal-dir = "/var/opt/influxdb/wal™" 
wal-enable-logging = true 
[admin] 

enabled = true 

#Web UI 端口 号 

bind-address = ":8083" 

#?HTTP API 配 置信 息 

[http] 

# 启 动 HTTP API 

enabled = true 

# 监 听 HTTP 访 问 端口 号 

bind-address = ":8086" 

# 启 用 权限 控制 

auth-enabled = false 








(4) 启动 InfluxDB 





/etc/init.d/influxdb start 





显示 如 下 信息 表示 启动 完成 : 





Starting the Process influxdb [ OK ] 
influxdb process was started [ OK ] 





(5) 关闭 InfluxDB 





/etc/init.d/influxdb stop 





显示 如 下 信息 表示 关闭 完成 : 





influxdb process was stopped [ OK ] 





(6) 查看 InfluxDB 运 行 状态 





/etc/init.d/influxdb status 








显示 如 下 信息 表示 InfluxDB 正 常 运行 信息 : 





influxdb Process is running [ OK ] 





(7) 权限 管理 














InfluxDB 默 认 没有 开启 权限 控制 ， 如 果 需 要 开启 权限 控制 ， 首 先 连 接 InfluxDB 创 建 管 理 管理 员 用 户 。 用 户 名 为 admin， 密 码 为 admin， 具 有 所 有 管理 权限 。 








CREATE USER admin WITH PASSWORD ‘admin' WITH ALL PRIVILEGES 








断 开 InfluxDB 连 接 ， 修 改 配置 文件 influxdb.conf， 设 置 auth-enabled=true 开 启 权限 控制 ， 重 启 InfluxDB。 


由 


9.1.3 InfluxDB 操 作 


1. 可 视 化 管理 























InfluxDB 提 供 了 简单 易 用 的 可 视 化 管理 UI， 在 浏览 器 中 输入 访问 192.168.1.1:8083， 点 击 右 上 角 设 置 图 标 即 可 设置 InfluxDB 连 接 信息 。 























Documentation Database: monitordb ~ 次 











Host | 192.168.1.1 Usemame | admin 


|sae | 


Query Templates ~ 











9-2 设置 InfluxDB 连 接 信息 




















在 右 侧 的 “Query Templaes” 下 拉 框 中 提供 了 非常 丰富 的 管理 命令 ， 通 过 选择 不 同 的 管理 命令 会 在 中 间 “Query” 的 查询 框 中 显示 被 选中 的 管理 命令 的 使 用 语法 ， 点 击 回 车 执行 。 














InfluxDB 常 用 管理 命令 如 下 : 











(1) 创建 数据 库 





CREATE DATABASE "db_name" 





(2) 删除 数据 库 





DROP DATABASE "db name™ 





(3) 删除 表 





DROP MEASUREMENT cpu load shortl 





(4) 创建 保留 策略 











InfluxDB 的 保留 策略 是 针对 数据 库 设置 的 ， 只 要 数据 库 创 建 了 新 的 保留 策略 并 且 设置 为 默认 保留 策略 ， 则 该 数据 库 下 的 所 有 表 都 执行 新 的 保留 策略 。 保 留 策略 作用 是 设置 数据 的 保留 时 间 ， 如 果 超 过 保 
留 策略 的 时 间 段 则 数据 过 期 被 删除 弃 用 。 
































Show Databases 
Create Database 
Drop Database 


Show Measurements 
Show lag Keys 


Show Tag Values 





























Show Retention Policies 
Create Retention Policy 
Drop Retention Policy 

















Show Users 
Create User 
Create Admin User 
Drop User 


Show Diagnostics 











图 9-3 管理 命令 








(5) 创建 新 的 保留 策略 格式 





CREATE RETENTION POLICY<retentionpolicy> ON <database> DURATION <duration> REPLICATION <n> [DEFAULT] 





关键 参数 说 明 : 

:retentionpolicy: 保留 策略 名 称 。 

-database: 作用 的 数据 库 名 称 。 

-DURATION: 保存 时 长 ， 格 式 为 1h，30m，7d， 分 别 表示 1 小 时 ，30 分 钟 ，7 天 。 
-REPLICATION: 副本 数 。 

-DEFAULT: 是 否 默 认 保留 策略 。 


(6) 删除 保留 策略 





DROP RETENTION POLICY "rp name" ON "db name" 





(7) 插入 数据 


点 击 “Write Data” 菜 单项 ， 弹 出 写 入 数据 编辑 窗口 ， 输 入 写 入 数据 语句 ， 如 图 9-4 所 示 。 





Write Data to InfluxDB 








Close Send Data 





图 9-4 输入 写 入 数据 语句 
2.HTTP API 


InfluxDB 提 供 了 HTTP API， 通 过 cur| 发 送 HTTP 请 求 与 InfluxDB 交 互 。 


(1) 创建 数据 库 





Curl -XPOST 'http://192.168.1.1:8086/query' --data-urlencode "q=CREATE DATABASE monitordb" 





(2) 删除 数据 库 





Curl -XPOST 'http://192.168.1.1:8086/query' --data-urlencode "q=DROP DATABASE monitordb" 





(3) 插入 数据 





Curl -XPOST 'http://192.168.1.1:8086/write?db=monitordb' \ 
-d 'yarn queue source, queur name=ad used memory=12345,total memory=45678 1483200000000"' 





说 明 : 


“yarn_queue_source: 插入 的 表 名 。 
"queur_name: tag 名 称 ， 多 个 tag 之 间 用 逗号 隔 开 





“used memory 和 total_memory: field 名 称 ， 多 个 值 之 间 用 逗号 隔 开 
“1483200000000: 时 间 戳 ， 每 一 条 插入 的 数据 都 必须 包含 。 


(4) 查询 








curl -G http://192.168.1.1:8086/query?pretty=true --data-urlencode "db=monitordb" \ 
--data-urlencode "q=SELECT used memory FROM yarn queue source WHERE queur name="'ad' AND time < now() -1lh" 





说 明 : 查询 上 一 个 小 时 “ad” 队 列 的 内 存 使 用 情况 。 


9.1.4 InfluxDB 客 户 端 





1. 获 取 InfluxDB 连 接 
if(username== null && password == null){ 
influxdbClient = InfluxDBFactory.connect ("http://"+ this.ip + ":" + this.port); 


Pong pong = influxdbClient .ping(); 
if (pong != null) { 
System.out .Println("Pong : " + pong); 


lelse{ 
influxdbClient = InfluxDBFactory.connect ("http://"+ this.ip + ":" + this.port, 


this.username, this.password); 
Pong pong = influxdbClient .ping(); 
if (pong != null) { 








System.out .Println("Pong : " + pong); 

} 

} 

2. 插 入 入 单条 数据 

Public void writeOutput (Map data) { 
String database = (String)data.get ("database"); // 数据 库 名 称 
String retention = (String)data.get ("retention"); // 保留 策略 
String measurement = (String)data.get ("measurement"); _// 
Map tags = (Map)data.get ("tags"); // 标签 (索引 ) 键 值 对 列表 
Map fields = (Map)data.get ("fields"); // 监控 指标 键 值 对 列表 
if(retention 一 null || retention.equals("")){ // 如 果 保 留 策略 为 空 则 采用 默认 策略 


retention = "default"; 


Point point = Point.measurement (measurement) 
‘tag (tags) 
.time (System.currentTimeMillis(), TimeUnit .MILLISECONDS) 
.fields (fields) 
.build(); 
influxdbClient .write (database, retention, point); 





3. 批 量 插入 数据 





public class InfluxDBInfoBean { 

private static String host; 

private static int port; 

Private static String userName; 

Private static String passWord; 

private static String database; 

Private static String measurement; 

private static Map tags; 

private static String retentionPolicy; 

private static ConsistencyLevel consistencyLevel; 

public static String getHost() { 
return host; 

} 

public static void setHost (String host) { 
InfluxDBInfoBean.host = host; 

} 


} 
public void batchWriteOutput (InfluxDBInfoBean dbInfo,List<Map> datas) { 
if(datas != null)f{ 
BatchPoints batchPoints = BatchPoints.database (dbInfo.getDatabase ()) 
.retentionPolicy (dbInfo.getRetentionPolicy()) 
.consistency (dbInfo.getConsistencyLevel ()) 
.build(); 
Map dbTags = dbInfo.getTags (); 
for (int i=0;i<datas.size();i++){ 
Map data = datas.get (i); 
Map tags = (Map)data.get ("tags"); 
if(dbTags != null){ 
// 将 配置 文件 中 设置 的 tags 添 加 到 数据 中 的 tags 
tags.putAll (dbTags); 


} 
Map fields = (Map)data.get ("fields"); 
Point point = Point.measurement (dbInfo.getMeasurement ()) 
.tag (tags) 
.time (System.currentTimeMillis (),TimeUnit .MILLISECONDS) 
.fields (fields) 
bulld(}s 
batchPoints.point (point); 


} 
influxdbClient .write (batchPoints); 





9.2 JMXTrans 

















JMX 是 Java Management Extensions 的 简称 ， 在 Java 应 用 程序 中 监控 系统 运行 的 状态 信息 ， 在 日 常 的 开发 运 维 过 程 中 通过 分 析 JMX 信 息 监控 应 用 程序 运行 状态 、 优 化 程序 、 排 查 问题 。JMXTrans 是 一 
款 开源 的 JMX 指 标 采 集 工 具 ， 使 用 简单 方便 ， 无 需 编写 代码 ， 只 需要 配置 文件 就 可 以 轻松 收集 大 量 应 用 的 JMX 指 标 数据 。 

























































































9.2.1 JMXTrans 介 绍 











JMXTrans 提 供 了 两 种 使 用 模式 。 第 一 种 模式 使 用 JmxTransformer 引 擎 读 取 JSON 配 置 文件 ， 创 建 作业 执行 计划 。 在 JSON 配 置 文 件 中 可 以 定义 不 限 数量 的 监控 服务 器 ,执行 JMX 查 询 ， 每 次 执行 的 JMX 
查询 可 以 使 用 多 种 类 型 的 OutputWriter 来 输出 其 结果 持久 化 存储 。JmxTransformer 引 擎 采用 多 线程 方式 查询 JMX， 在 配置 文件 中 通过 设置 启动 的 最 大 线程 数 提高 并 发 查询 能 力 。 默 认 最 多 同时 查询 10 台 服 
务 器 。 针 对 每 个 服务 器 的 查询 ， 还 可 以 配置 使 用 多 个 线程 同时 查询 。 








































































































JmxTransformer 引 擎 包含 输入 端 与 输出 端 两 部 分 ， 输 入 端 与 JMX 服 务 器 和 连接， 查询 JMX 指 标 数据 ， 输 出 端 与 外 部 持久 化 存储 或 者 可 视 化 工具 连接 ， 输 入 端 与 输出 端 之 间 通 过 Socket 传 输 数据 。 


























第 二 种 模式 使 用 JMXTrans 提 供 的 API 来 构建 自己 的 应 用 程序 ，JMXTrans 使 用 Jackson 库 将 JSON 数 据 解 析 为 Java 对 象 模型 ， 此 模型 主要 由 JmxProcess、Server、Query、Result 对 象 组 成 。 使 用 API 调 
查询 请 求 后 会 返回 一 个 结果 列表 。 根 据 实际 需求 对 返回 结果 数据 定制 化 开发 ， 完 成 不 同 应 用 场景 的 定制 实现 。 




















































































































到 9-5 是 JMXTrans 原 理 示意 图 。 
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图 9-5 JMXTrans 原 理 示 意 











JMXTrans 支 持 多 种 输出 方式 ,分 别 有 GangliaWtiter、GraphiteWriter、OpenTSDBWriter、StdoutWriter、Log4JWriter、InfluxDBWriter 等 ， 如 此 丰富 的 输出 方式 不 需要 修改 任何 代码 ， 只 需要 简 
单 的 配置 就 可 以 完成 。 下 面 分 别 介绍 InfluxDBWriter 的 使 用 方法 来 了 解 JMXTrans 的 配置 方法 。 




















InfluxDB 是 一 款 开 源 的 分 布 式 时 间 序 列 数据 库 ，JMXTrans 内 置 InfluxDBWriter 连 接 InfluxDB， 不 需要 修改 代码 ， 只 需要 基本 的 配置 信息 就 可 以 将 采集 到 的 指标 数据 写 入 到 InfluxDB 中 持久 化 存储 。 














监听 192.168.1.1 服 务 器 的 9999 JMX 端 口 ， 获 取 堆 内 存 和 非 堆 内 存 的 使 用 信息 ， 将 采集 到 的 指标 数据 写 入 到 InfluxDB 的 “monitordb” 数 据 库 的 “jvm_memory” 表 中 ，JSON 配 置 文件 示例 如 下 : 























{ 







"servers" : [1 
四 下 3 于 人 六 L681 
nhosgt" : "9999", 
"queries" : [ { 
"obj"”: "java.lang:type=Memory", 
"attr" : [ "HeapMemoryUsage", "NonHeapMemoryUsage" ], 
"resultAlias":"jvmMemory", 
"outputWriters" : [ { 
"@class" "com.googlecode.jmxtrans.model .output.InfluxDbWriterFactory", 
nbrln : "http:// 192.168,.1.1:8086", 
"username" "admin", 
"password" : "admin", 
"database" : "monitordb" 





9.2.2 JMXTrans 安 装 


JMXTrans 安 装 包 下 载 地 址 : http://central.maven.org/maven2/org/jmxtrans/jmxtrans/， 打 开 链 接 可 以 看 到 不 同 版 本 的 JMXTrans 列 表 ， 选 择 需要 安装 的 版 本 目录 以 及 需要 安装 的 安装 包 。Ubuntu 
或 者 Debian 系 统 的 服务 器 安装 下 载 “.deb” 扩 展 名 的 安装 包 ，CentOS、Redora、RHEL 系 统 下 载 “.rpm” 扩 展 名 的 安装 包 。 





安装 环境 : 操作 系统 CentOS6.6、JDK1.7、 内 存 128G。 


1. 下 载 RPM 安装 包 





wget http://central .maven.org/maven2/org/jmxtrans/jmxtrans/263/jmxtrans-263.rpm 





2. 安 装 





rpm -i jmxtrans-263.rpm 





(1) 相关 目录 说 明 

安装 目录 : /usr/share/jmxtrans 

日 志 目 录 : /var/log/jmxtrans 

JMX 采 和 集 服务 JSON 配 置 文件 目录 : /var/lib/jmxtrans 
PID 目 录 : /var/run/jmxtrans 

系统 运行 配置 文件 : /etc/jmxtrans/wrapper.conf 


(2) 设置 堆 内 存 分 配 情 况 





# 初始 化 分 配 的 堆 内 存 
wrapper .java.initmemory=256 
# 最 天 兴办 他 


wrapper .java.maxmemory=512 





3. 启 动 关闭 





/etc/init.d/jmxtrans start 
/etc/init.d/jmxtrans stop 





9.2.3 JMXTrans 使 用 














JMXTrans 可 以 采用 两 种 部 署 方式 收集 Kafka 的 JMX 指 标 数 据 ， 监 控 Kafka 的 运行 情况 。 第 一 种 是 分 散 式 部 署 ， 所 有 Kafka 的 节点 都 安装 上 JMXTrans， 每 个 JjMXTrans 进 程 只 收集 本 地 的 JMX 指 标 。 第 二 














种 是 集中 式 部 署 ， 只 在 一 台 机 器 上 部 署 JMXTrans， 同 时 收集 所 有 需要 监控 的 Kafka 节 点 。 我 们 采用 第 二 种 集中 式 部 署 的 方式 。 








1. 开 启 Kafka 的 JMX 监 听 


进入 到 Kafka 安 装 路 径 bin 目 录 下 ， 编 辑 kafka-run-class.sh 脚 本 ， 设 置 KAFKA_JMX_OPTS 变 量 ， 添 加 如 下 信息 ， 开 启 JMX 监 听 ， 





由 


看 启 Kafka。 





-Dcom. sun.management .jmxremote 

-Dcom. sun.management .jmxremote .port=9999 

-Dcom. sun.management .jmxremote.authenticate=false 
-Dcom. sun.management .jmxremote.ssl=false 





2. 新 建 配 置 文件 kafka_jmx_2influxdb.json 














Kafka 采 用 伪 分 布 式 部 署 ， 一 个 节点 部 署 了 三 个 Kafka Broker， 分 别 开 启 的 JMX 监 听 端 口 为 9997、9998、 
到 InfluxDB， 配 置 文件 中 “resultAlias” 选 项 设置 的 值 作为 表 名 ， 提 前 创建 好 数据 库 和 保留 策略 。 























9999， 同 时 监听 三 个 JMX 端 口 

















， 收 集 堆 内 存 和 非 堆 内存 使 





情况 。 


最 终 将 收集 的 指标 数据 写 入 





"SErVers™ : 





"queries 
"obj" : "java.lang:type=Memory", 
"attr" : [ "HeapMemoryUsage", "NonHeapMemoryUsage"], 
"resultAlias":"jvm memory", 
"outputWriters™" : [ { 
"@class" : "com.googlecode.jmxtrans.model.output.InfluxDoWriterFactory", 
"url" : "http:// 192.168.1.1:8086/", 


"username" "admin'" 










"Passwo "agdmin", 
"database" : "monitordb", 
"createDatabase" : "false", 


"retentionPolicy":"three days" 





"queries" : [ { 

"obj" : "java.lang:type=Memory", 

"attr" : [ "HeapMemoryUsage", "NonHeapMemoryUsage"], 

"resultAlias":"jvm memory", 

"outputWriters" : [ { 
"@class" : "com.googlecode.jmxtrans.model.output.InfluxDoWriterFactory", 
mml™ 3 "https/y 192,168.1.1:8086/"; 
"username" : "admin", 
"password" "admin'" 
"database" : "monitordb", 
"createDatabase" : "false", 
"retentionPolicy":"three days" 












"port" : "9999", 
"host” 3 "192.168.131"; 
"queries" ; [ { 
"obj" : "java.lang:type=Memory", 
"attr" : [ "HeapMemoryUsage", "NonHeapMemoryUsage"], 
"resultAlias":"jvm memory", 
"outputWriters" : Ti{ 
"@class" : "com.googlecode.jmxtrans.model.output.InfluxDboWriterFactory", 
“url" ; "https// 192.168,.1,.1:8086/™, 
"Username" : 
"passwor 
"database" 


"createDatabase" : "false", 
"retentionPolicy":"three days" 


Ia 


条 
} 





@@ 注 意 JMXTrans0.11 版 本 取消 了 如 果 数 据 库 不 存在 自动 创建 的 功能 ， 需 要 设置 createDatabase 为 false， 如 果 设 置 为 true 将 提示 如 图 9-6 所 示 的 错误 。 


[jmxtrans-result-6] 944888 WARN (com.googlecode.jmxtrans.jmx.ResultProcessor$1:60) 
- Could not write results [Result (attributeName=HeapMemoryUsage, 
className=sun .management .MemoryImpl, obijDomain=java.lang, 
typeName=type=Memory, values={max=1073741824, committed=1073741824, 
init=1073741824, used=796838432}, epoch=1489492253876, keyAlias=jvmMemory)] 
of query Query (objectName=jJava.lang:type=Memory, keys=[], 
attr=[HeapMemoryUsage], typeNames=[], resultAlias=jvmMemory, useObjDomainAsKey=false, 
allowDottedKeys=false, useAllTypeNames=false, outputWriterInstances=[com.googlecode.jmxtrans 
-model .output .support.ResultTransformerOoutputWriter@13c473b6]) to output writer com.googlecode 
.jmxtrans.model .output.support.ResultTransformerOoutputWriter@13c473b6 
java.lang.RuntimeException: Method Not Allowed 
at org.influxdb.impl.InfluxDBImpl .execute (InfluxDBImpl .java:266) 
at org.influxdb.impl.InfluxDBImpl .createDatabase (InfluxDBImpl .Java:230) 
at com.googlecode.jmxtrans.model.output.InfluxDbWriter.doWrite (InfluxDbWriter.java:151) 
at com.googlecode.Jjmxtrans.model.output.support.ResultTransformerOutputWriter. 
doWrite (ResultTransformerOoutputWriter.java:52) 
at com.googlecode.jmxtrans.-Jjmx.ResultProcessor$1.run(ResultProcessor.Java:58) 
at java.util.concurrent .Executors$RunnableAdapter.call (Executors-]java:473) 
at JjJava.util.concurrent.FutureTask.run(FutureTask.Java:262) 
at java.util.concurrent.ThreadPoolExecutor.runWorker (ThreadPoolFExecutor.java:1145) 
at java.util.concurrent.ThreadPoolExecutor$Worker.run (ThreadPoolFxecutor .java:615) 





图 9-6 系统 报错 


3. 启 动 /etc/init.d/jmxtrans start 





在 “monitordb” 数 据 库 中 执行 “SHOW MEASUREMENTS” 查 看 是 否 有 新 创建 的 表 “jvm_memory”， 如 图 9-7 所 示 。 











过 InfluxDB WrteData Documentation 


Query: | SHOW MEASUREMENTS 


measurements 








图 9-7 查询 是 否 有 新 建 的 表 jvm_memory 








查询 收集 的 监控 指标 数据 是 否 正常 ， 如 图 9-8 所 示 。 














| Query: | select * from ym_memory | 





Query Templates ~ | 





attibuteName className committed hostname init max objDomain typeName 





2017-03- "HeapMemoryUsage" "sun management .MemoryImpl" 1073741824 "10.148 1240" 1073741824 1073741824 "javalang” "ype=Memory" 
14T16:55:28.985Z 


2017-03- "NonHeapMemoryUsage” “sun.management.Memorylmpr" "10.148.12.40" 23527424 136314880 “javalang” "lype=Memory" 
14T116:55:28.985Z 





2017-03- "HeapMemoryUsage”" "sunmanagement.MemoryImpf” 1073741824 “10.148.12.40” 1073741824 1073741824 “javalang” "ype=Memory” 675571976 
14T16:55:36.333Z 


2017-03- "NonHeapMemoryUsage" "sun.management.MemoryImpl" 27918336 "10.148.12.40" 23527424 136314880 "javalang” "ype=Memory" 27404592 
14T16:55:36.333Z 





2017-03- "HeapMemoryUsage”" "sunmanagementLMemoryImpr” 1073741824 "10.148.12.40" 1073741824 1073741824 "javalang"” "ype=Memory” 526714384 
14T16:56:28.764Z 








图 9-8 ”查询 收集 的 监控 指标 数据 是 否 正常 


9.3 Grafana 


























Grafana 是 一 款 开源 指标 分 析 和 可 视 化 框架 ， 是 目前 使 用 比较 广泛 的 监控 系统 可 视 化 工具 ,提供 了 丰富 的 数据 源 ， 具 有 监控 报警 ， 个 性 化 定制 Dashboard 等 功能 。 























9.3.1 ”Grafana 安 装 


Grafana 安 装 的 非常 简单 ， 只 需 几 步 就 可 以 轻松 完成 ， 下 面 介 绍 Grafana 的 安装 过 程 。 


(1) 下 载 安装 包 





wget https://grafanarel.s3.amazonaws.com/builds/grafana-4.1.2-1486989747.1inux-x64.tar.gz 





(2) 解压 安装 





tar -zxvf grafana-4.1.2-1486989747.1linux-x64.tar.gz 








中 


命名 : 





mv grafana-4.1.2-1486989747grafana-4.1.2 





创建 软 连 接 : 





ln -s /data/grafana-4.1.2 /usr/local/grafana 





编写 配置 文件 : 


进入 到 grafana 安 装 目录 ， 复 制 自 带 的 sample.in 配 置 文件 server.ini。 








cd /usr/local/grafana 
cp conf/sample.ini conf/custom.ini 





修改 配置 文件 中 关键 配置 信息 : 





日 志文 件 路 径 : 





logs = /usr/local/grafana/log 
plugins = /usr/local/grafana/plugins 





HTTP 访 问 信息 : 





http port = 18000 
domain = 192.1681.1 





数据 库 配置 ， 存 储 元 数据 ， 数 据 库 可 以 选择 MySQL 和 sqlite3， 默 认 使 用 sqlite3， 建 议 使 用 MySQL: 





type = sqlite3 

host = 127.0.0.1:3306 
name = grafana 

user = root 

password = 























Grafana 的 管理 员 用 户 名 和 密码 : 





admin user = admin 
admin Password = admin 





添加 报警 邮件 信息 : 





[smtp] 

enabled = true 

host = 192.168.1.1:25 
user = alert 

Password = alert 

from address = alert@.com 





skip_verify=true# 默 认 是 false， 一 定 要 改 成 true， 否 则 报错 “EROR[01-04|16:01:18]Failed to send alert notification email” 


(3) 启动 





bin/grafana-server start -config conf/server.ini 





详细 安装 信息 请 参考 官网 文档 : http://docs.grafana.org/installation/。 


9.3.2 ”Grafana 使 用 











户 登录 ， 如 图 9-9 所 示 。 











A 














浏览 器 中 访问 配置 文件 中 设置 的 访问 地 址 http://192.168.1.1:18000/login， 使 用 管理 


Log in 


User 


password 


图 9-9 ”Grafana 登 录 界 面 
1. 接 入 InfluxDB 数 据 源 


Grafana 可 以 接 入 的 数据 源 非 常 丰富 ， 目 前 可 以 接 入 的 数据 源 有 Graphite、Elasticsearch、lnfluxDB、OpenTSDB 等 主流 时 序数 据 库 和 数据 检索 系统 。 添 加 数据 源 的 配置 非常 简单 ， 下 面 以 接 入 
InfluxDB 为 例 。 


1) 点 击 左 上 角 Grafana 图 标 显示 下 拉 菜 单 ， 选 择 DataSource 选 项 ， 在 数据 源 管理 页 面 下 会 显示 所 有 已 经 添加 的 数据 源 ， 如 图 9-10 所 示 。 





I@ ~ 多 Data Sources 


admin 一 一 
Main Org 
十 Add data source 


Dashboards 


EO) Alerting 


Data Sources | 


2) 新 增 数 据 源 ， 点 击 右 上 角 “Add data source” 按 钮 会 跳 转 到 数据 源 配 置 页 面 ， 如 图 9-11 所 示 。 








9-10 ”数据 源 管理 页 面 



































GE 斩 Data Sources 


Add dato source 





http://192.168.1.1:8086 


direct 


With Credentials 
Li 


InfluxDB Details 


Database 


User 


Default group by time 


Cancel 


图 9-11 数据 源 配置 页 面 





`User: 访问 InfluxDB 的 用 户 名 。 


"Password: 访问 InfluxDB 的 密码 。 


关键 信息 配置 完成 后 点 击 “Add” 按钮 即 完成 数据 源 的 添加 。 




















1) 点 击 左上 角 Grafana 图 标 显示 下 拉 菜单 ， 选 择 “Dashboards 一 New” 菜单 项 新 建 dashboard， 如 图 9-12 所 示 。 























2) 在 新 建 的 Dashboard 编 辑 页 面 有 四 个 区 域 可 以 操作 ， 包 括 行 控制 菜单 、 控 制 面 板 、 查 询 时 间 范 围 、 添 加 新 行 。 






































行 控制 菜单 在 整个 页 面 中 上 部 的 最 左边 ， 鼠 标 移 到 菜单 上 会 出 现 可 使 用 的 菜单 选项 ， 六 个 菜单 项 的 功能 依次 是 : 折 茎 、 添 加 控制 面板 、 行 属性 操作 、 向 上 移动 、 向 下 移动 、 删 除 ， 如 图 9-13 所 示 。 
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图 9-12 ”新 建 Dashboard 
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Add Panel 
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Jew dashboard ~- 次 《 zoomour > QLast6hours 





ii 每 


Graph Singlestat i Dashboard list Plugin list 


图 9-14 Panel 中 已 提供 的 可 视 化 组 件 
下 面 介绍 在 Panel 中 添加 Graph 指标 图 形 化 展示 。 


在 Panel 中 点 击 “ADD ROW” 按钮， 在 弹出 来 的 可 视 化 选择 列表 中 选择 Graph 图 形 化 展示 ， 单 击 “Panel Title” 标 题 弹 出 编辑 菜单 ， 选 择 “Edit” 编 辑 按钮 ， 如 图 9-15 所 示 。 


gy ?3 月 15,2017 0 


Edit Duplicate Share 


Panel Title 


图 9-15 “Panel Title” 下 的 


标题 属性 设置 如 图 9-16 所 示 。 


Gr aph | Metrics Display Alert Time range 
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图 9-16 ”Panel 图 形 常 规 设置 


X 轴 、Y 轴 设置 如 图 9-17 所 示 。 


Gr aph General Metrics ] Axes ] Legend Display Alert Time range 
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图 9-17 ” Panel 图形 坐标 设置 


标注 设置 如 图 9-18 所 示 。 
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图 9-18 ”Panel 图 形 标注 设置 


展示 图 形 设置 如 图 9-19 所 示 。 


lg aph General Metrics Axes Legend Display Alert Time range 
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图 9-19 Panel 图形 属性 设置 


关键 指标 配置 如 图 9-20 所 示 。 


General Metrics Axes Legend Display Alert Time range 





FROM three days jvm_memory WHERE hostname 10.148.12.40 
SELECT field (used) max00 alias{used_ | 和 4 
GROUP BY time (10m) fill (null) 叶 


ALIAS BY Format as Time series ~ 


Panel data source monitordb ~ 二 Add query 


£ Group by time interval 8 


@ alias patterns @ stacking & fill @ group bytime 


图 9-20 ”Panel 图 形 指标 配置 





"A: 查询 名 称 。 

"FROM: 设置 保留 策略 ， 数 据 表 。 

-WHERE: 过 滤 条 件 。 

“SELECT: 设置 展示 的 关键 指标 、 使 用 的 函数 、 别 名 等 。 
GROUP BY: 设置 按照 时 间 分 区 。 

-Panel data source: 选择 数据 源 。 

-Adqd query: 继续 添加 查询 。 


设置 完成 后 点 击 右 上 角 的 关闭 按钮 。 
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图 9-21 演示 图 形 














在 顶端 菜单 栏 的 左边 可 以 设置 刷新 时 间 和 查询 时 间 范 围 ， 如 图 9-22 所 示 。 








《 zoomout >》 各 3 月 15,.201708:49:42 to 3 月 15. 2017 09:19:42 
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图 9-22 ”时 间 设 置 





首先 配置 报警 服务 器 ， 在 conf 目 录 下 的 配置 文件 中 添加 如 下 报警 邮箱 信息 : 








[smtp] 

enabled = true 

host = 192.168.1.1:25 

user = alert 

password = alert 

from address = alert@alert .com 





skip_verify=true# 默 认 是 false， 一 定 要 改 成 true， 不 然 会 报错 。 





























在 可 视 化 管理 页 面 设置 报警 信息 ， 设 置 接收 报警 人 的 邮箱 ( 见 图 9-23) : 主 菜单 一 Alerting 一 New Notification。 











Alert notifications 


竺 New Notification 














9-23 ”设置 邮件 报警 





选择 报警 类 型 为 email， 在 EmailAddress 文 本 框 中 填写 接收 报警 邮件 的 邮箱 ， 如 果 需 要 多 个 邮箱 接收 报警 邮件 ， 多 个 邮箱 之 间 用 “;” 隔 开 ， 如 














9-24 所 示 。 
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Type email 


Send on all alerts LE (VV 
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You can enter multiple email addresses using a ";" separator 


图 9-24 邮箱 报警 设置 


单 击 “Send Test” 按 钮 测试 能 否 成 功 接收 报警 邮件 。 在 配置 的 接收 报警 的 邮箱 中 会 收 到 一 封 报警 测试 邮件 ， 如 图 9-25 所 示 。 
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图 9-25 ”报警 测试 邮件 


在 dashboard 中 针对 需要 报警 的 监控 设置 报警 信息 。 





注意 ”需要 设置 报警 的 监控 返回 值 必须 是 单个 值 ， 不 支持 多 值 的 情况 。 








单 击 报警 图 标的 标题 位 置 ， 在 弹出 的 菜单 中 选择 Edit 按 钮 ， 如 图 9-26 所 示 。 
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图 9-26 添加 报警 











在 图 表 下 方 显 示 编 辑 操作 界面 ， 选 择 “Alert” 标 签 设 置 报警 信息 ， 如 图 9-27 所 示 。 


























配置 报警 信息 : 


Name: 报警 名 称 。 
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N Eval 
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Se ey Conditions 


Delete WHEN max () query(A, 10m,now) ISABOVE 10240 


二 


If no data or all values are null SET STATE TO No Data 


lf execution error or timeout SET STATE TO Alerting 


Test Rule 


query 中 A 的 由 来 ， 可 以 切换 到 SQL 语 句 显示 ， 如 图 9-28 所 示 。 


Gr aph General ] Metrics Axes Legend Display Alert Time range 








SELECT max("used_memory") FROM "three_days' .yarn_queue_source” WHERE "queue_name" = "digital marketing AND $time! 
[三 Panel data source monitordb ~ 十 Add query 


pa Group by time interval 全 


@ alias patterns 全 stacking & fill @ Eroup by time 


图 9-28 ”查询 名 称 设置 
“IS ABOVE: 闵 值 ， 可 以 手动 输入 也 可 以 在 图 形 上 拖 搜 * 心 “图 标 来 设置 。 
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图 9-29 ”图形 阅 值 设置 











图 9-30 中 的 两 项 配置 分 别 表 示 没有 查 到 数据 和 返回 错误 的 处 理 方式 。 








ff no data or all values are null SET STATE TO No Data 


lf execution error or timeout SET STATE TO Alerting 





图 9-30 “异常 处 理 设置 





监控 报警 设置 完成 后 会 在 标题 位 置 出 现 一 个 心 形 图 标 ， 表 示 该 指标 图 形 已 经 添加 监控 ， 如 图 9-31 所 示 。 
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KafkaMemoryMonitor 
905 Mil 
900 Mil 
895 Mil 
B890 Mil 
B85 Mil 
E20 
B75 Mil 
B70 Mil 
865 MI 


8B60 Mi 
08:50 08-52 


一 jivm_memeryuscd_ momory 

















注意 关于 报警 的 详细 配置 请 参考 http://docs.grafana.org/alerting/rules/。 























本 章 通过 使 用 时 序数 据 库 InfluxDB、JMX 指 标 采 集 工 具 JMXTrans、 数 据 可 视 化 工具 Grafama 搭 建 了 一 套 完整 的 基于 JMX 的 监控 系统 。 监 控 系统 在 公司 整个 系统 架构 中 处 于 非常 重要 的 位 置 ， 各 种 系统 
指标 和 任务 状态 都 需要 监控 系统 实时 监控 预警 ， 只 有 监控 系统 做 得 强大 才能 保障 线 上 各 业务 系统 的 稳定 运行 ， 才 能 保证 提供 稳定 、 高 效 的 系统 服务 。 监 控 系 统 的 实现 有 很 多 种 ， 可 使 用 的 技术 也 很 多 ， 希 望 
通过 本 章 的 讲解 ， 能 够 帮助 大 家 理解 监控 系统 的 重要 性 。 























